02 2025 档案
摘要:在阅读了王概凯的九篇《架构漫谈》后,我对架构有了深刻的理解。 架构,它绝不仅仅是一个单纯的技术术语,而更像是一个系统世界的骨架与蓝图,承载着让复杂系统有序运转、稳定发展以及灵活应变的重任。从宏观角度来看,架构决定了一个系统的基本形态和运行逻辑,它就像是高楼大厦的地基与框架,地基打得是否坚实、框架设计
阅读全文
摘要:继昨天 下载cudnn将其中解压后的文件复制到cuda对应的文件夹下即可。 然后开始启动anaconda的控制台 创建 qwen-vl 虚拟环境使用 conda 创建一个名为 qwen-vl 的虚拟环境,并指定 Python 版本为 3.10。conda create -n qwen-vl pyth
阅读全文
摘要:下载配置anaconda在官网直接下载anaconda并安装,选择对所有用户安装。 修改安装位置可以改自己要下载的路径,路径之中不能有中文。安装最后的完成界面的两个勾都取消。 在控制台输入conda --version出现版本号算成功。然后修改虚拟环境的保存位置和镜像源,注意base envirom
阅读全文
摘要:回顾寒假期间的学习成果,总结Python爬虫、Hadoop、Hive和Spark的使用经验。同时,展望未来的学习方向和计划。学习成果:总结在数据爬取、Hadoop生态系统、Spark数据分析等方面的学习成果。经验分享:分享学习过程中的心得和遇到的问题。未来计划:制定新学期的学习计划和目标。寒假期间,
阅读全文
摘要:我们使用Python爬取了数据并存储到HDFS中。本篇博客将介绍如何使用Hadoop和Spark对这些数据进行分析。Hive数据加载:将HDFS中的数据加载到Hive表中。Spark数据分析:使用Spark进行数据清洗和分析。示例代码:Hive加载数据:-- 创建Hive表CREATE TABLE
阅读全文
摘要:Python是数据爬取的强大工具,而Hadoop的HDFS是存储大规模数据的理想选择。本篇博客将介绍如何使用Python爬取数据,并将其存储到HDFS中。Python爬虫:使用requests和BeautifulSoup库爬取网页数据。HDFS操作:使用hdfs库将数据写入HDFS。示例代码: im
阅读全文
摘要:Scala可以通过HBase的Java API与HBase进行交互,实现数据的读写操作。本篇博客将展示如何使用Scala操作HBase。HBase Java API:使用Configuration、Table和Put类。数据操作:插入、查询和删除数据。示例代码: import org.apache.
阅读全文
摘要:HBase是一个基于Hadoop的分布式列存储数据库,适合存储大规模稀疏数据。本篇博客将介绍如何使用HBase存储和查询数据。HBase架构:HMaster和HRegionServer的角色。HBase操作:创建表、插入数据、查询数据。示例代码: # 启动HBase Shellhbase shell
阅读全文
摘要:Spark支持多种语言,其中Scala是其原生语言之一。通过Scala,可以更高效地编写Spark程序。本篇博客将展示如何使用Scala和Spark进行数据分析。RDD操作:创建和处理RDD。DataFrame和Dataset:高级API的使用。机器学习:使用Spark MLlib进行简单分类。示例
阅读全文
摘要:Spark是一个高性能的分布式计算框架,支持内存计算,适合大规模数据处理和机器学习。本篇博客将介绍如何使用Spark进行数据处理。Spark架构:Driver、Executor和Task的角色。Spark操作:创建RDD、DataFrame和Dataset。示例代码: import org.apac
阅读全文
摘要:Scala可以通过JDBC连接Hive,执行Hive SQL查询并处理结果。本篇博客将展示如何使用Scala与Hive进行交互。JDBC连接:配置Hive的JDBC连接。执行查询:通过Scala执行Hive SQL。示例代码: import java.sql.{Connection, DriverM
阅读全文
摘要:Hive是一个基于Hadoop的数据仓库工具,用于数据的提取、转换和加载(ETL)。它支持SQL-like语言(HiveQL),使得数据查询更加方便。Hive架构:Hive的元数据存储和执行引擎。Hive操作:创建表、插入数据、查询数据。示例代码: -- 创建表CREATE TABLE employ
阅读全文
摘要:Scala可以通过编写MapReduce程序与Hadoop集成,实现高效的数据处理。本篇博客将展示如何使用Scala编写一个简单的MapReduce程序来统计单词出现的次数。MapReduce程序:编写Mapper和Reducer。运行MapReduce任务:将Scala程序打包并提交到Hadoop
阅读全文
摘要:Scala可以通过编写MapReduce程序与Hadoop集成,实现高效的数据处理。本篇博客将展示如何使用Scala编写一个简单的MapReduce程序来统计单词出现的次数。MapReduce程序:编写Mapper和Reducer。运行MapReduce任务:将Scala程序打包并提交到Hadoop
阅读全文
摘要:HDFS(Hadoop Distributed File System)是Hadoop的核心组件之一,用于存储大规模数据集。本篇博客将介绍如何使用HDFS进行数据存储和管理。HDFS架构:NameNode和DataNode的角色。HDFS操作:上传、下载、查看文件。示例代码: # 查看HDFS中的文
阅读全文
摘要:Hadoop是一个开源的分布式计算框架,用于处理大规模数据集。本篇博客将介绍如何在本地搭建Hadoop单机模式环境。安装Hadoop:下载并解压Hadoop。配置Hadoop:配置core-site.xml和hdfs-site.xml。启动Hadoop:启动HDFS和YARN服务。示例代码:下载Ha
阅读全文
摘要:Hadoop是一个开源的分布式计算框架,用于处理大规模数据集。Scala可以通过编写MapReduce程序与Hadoop集成,实现高效的数据处理。Hadoop环境搭建:安装Hadoop并配置单机模式。Scala编写MapReduce程序:使用Hadoop的API编写MapReduce任务。示例代码:
阅读全文