2025 年 2月随笔档案 - 伐木工熊大

课堂加分

摘要：关注架构师公众号本地部署deepseek 阅读全文

posted @ 2025-02-26 22:08 伐木工熊大阅读(5) 评论(0) 推荐(0) 编辑

摘要：在阅读了王概凯的九篇《架构漫谈》后，我对架构有了深刻的理解。架构，它绝不仅仅是一个单纯的技术术语，而更像是一个系统世界的骨架与蓝图，承载着让复杂系统有序运转、稳定发展以及灵活应变的重任。从宏观角度来看，架构决定了一个系统的基本形态和运行逻辑，它就像是高楼大厦的地基与框架，地基打得是否坚实、框架设计阅读全文

posted @ 2025-02-26 17:03 伐木工熊大阅读(4) 评论(0) 推荐(0) 编辑

2025/2/25

摘要：继昨天下载cudnn将其中解压后的文件复制到cuda对应的文件夹下即可。然后开始启动anaconda的控制台创建 qwen-vl 虚拟环境使用 conda 创建一个名为 qwen-vl 的虚拟环境，并指定 Python 版本为 3.10。conda create -n qwen-vl pyth 阅读全文

posted @ 2025-02-26 16:52 伐木工熊大阅读(6) 评论(0) 推荐(0) 编辑

2025/2/24

摘要：下载配置anaconda在官网直接下载anaconda并安装，选择对所有用户安装。修改安装位置可以改自己要下载的路径，路径之中不能有中文。安装最后的完成界面的两个勾都取消。在控制台输入conda --version出现版本号算成功。然后修改虚拟环境的保存位置和镜像源，注意base envirom 阅读全文

posted @ 2025-02-26 16:43 伐木工熊大阅读(1) 评论(0) 推荐(0) 编辑

2025/2/18

摘要：回顾寒假期间的学习成果，总结Python爬虫、Hadoop、Hive和Spark的使用经验。同时，展望未来的学习方向和计划。学习成果：总结在数据爬取、Hadoop生态系统、Spark数据分析等方面的学习成果。经验分享：分享学习过程中的心得和遇到的问题。未来计划：制定新学期的学习计划和目标。寒假期间，阅读全文

posted @ 2025-02-18 11:15 伐木工熊大阅读(3) 评论(0) 推荐(0) 编辑

2025/2/13

摘要：我们使用Python爬取了数据并存储到HDFS中。本篇博客将介绍如何使用Hadoop和Spark对这些数据进行分析。Hive数据加载：将HDFS中的数据加载到Hive表中。Spark数据分析：使用Spark进行数据清洗和分析。示例代码：Hive加载数据：-- 创建Hive表CREATE TABLE 阅读全文

posted @ 2025-02-13 22:38 伐木工熊大阅读(2) 评论(0) 推荐(0) 编辑

2025/2/12

摘要：Python是数据爬取的强大工具，而Hadoop的HDFS是存储大规模数据的理想选择。本篇博客将介绍如何使用Python爬取数据，并将其存储到HDFS中。Python爬虫：使用requests和BeautifulSoup库爬取网页数据。HDFS操作：使用hdfs库将数据写入HDFS。示例代码： im 阅读全文

posted @ 2025-02-12 21:21 伐木工熊大阅读(3) 评论(0) 推荐(0) 编辑

2025/2/11

摘要：Scala可以通过HBase的Java API与HBase进行交互，实现数据的读写操作。本篇博客将展示如何使用Scala操作HBase。HBase Java API：使用Configuration、Table和Put类。数据操作：插入、查询和删除数据。示例代码： import org.apache. 阅读全文

posted @ 2025-02-11 20:43 伐木工熊大阅读(3) 评论(0) 推荐(0) 编辑

2025/2/10

摘要：HBase是一个基于Hadoop的分布式列存储数据库，适合存储大规模稀疏数据。本篇博客将介绍如何使用HBase存储和查询数据。HBase架构：HMaster和HRegionServer的角色。HBase操作：创建表、插入数据、查询数据。示例代码： # 启动HBase Shellhbase shell 阅读全文

posted @ 2025-02-10 21:35 伐木工熊大阅读(3) 评论(0) 推荐(0) 编辑

2025/2/9

摘要：Spark支持多种语言，其中Scala是其原生语言之一。通过Scala，可以更高效地编写Spark程序。本篇博客将展示如何使用Scala和Spark进行数据分析。RDD操作：创建和处理RDD。DataFrame和Dataset：高级API的使用。机器学习：使用Spark MLlib进行简单分类。示例阅读全文

posted @ 2025-02-09 17:10 伐木工熊大阅读(2) 评论(0) 推荐(0) 编辑

2025/2/8

摘要：Spark是一个高性能的分布式计算框架，支持内存计算，适合大规模数据处理和机器学习。本篇博客将介绍如何使用Spark进行数据处理。Spark架构：Driver、Executor和Task的角色。Spark操作：创建RDD、DataFrame和Dataset。示例代码： import org.apac 阅读全文

posted @ 2025-02-08 23:52 伐木工熊大阅读(3) 评论(0) 推荐(0) 编辑

2025/2/7

摘要：Scala可以通过JDBC连接Hive，执行Hive SQL查询并处理结果。本篇博客将展示如何使用Scala与Hive进行交互。JDBC连接：配置Hive的JDBC连接。执行查询：通过Scala执行Hive SQL。示例代码： import java.sql.{Connection, DriverM 阅读全文

posted @ 2025-02-07 23:38 伐木工熊大阅读(2) 评论(0) 推荐(0) 编辑

2025/2/6

摘要：Hive是一个基于Hadoop的数据仓库工具，用于数据的提取、转换和加载（ETL）。它支持SQL-like语言（HiveQL），使得数据查询更加方便。Hive架构：Hive的元数据存储和执行引擎。Hive操作：创建表、插入数据、查询数据。示例代码： -- 创建表CREATE TABLE employ 阅读全文

posted @ 2025-02-06 17:12 伐木工熊大阅读(3) 评论(0) 推荐(0) 编辑

2025/2/5

摘要：Scala可以通过编写MapReduce程序与Hadoop集成，实现高效的数据处理。本篇博客将展示如何使用Scala编写一个简单的MapReduce程序来统计单词出现的次数。MapReduce程序：编写Mapper和Reducer。运行MapReduce任务：将Scala程序打包并提交到Hadoop 阅读全文

posted @ 2025-02-05 21:09 伐木工熊大阅读(3) 评论(0) 推荐(0) 编辑

2025/2/4

摘要：Scala可以通过编写MapReduce程序与Hadoop集成，实现高效的数据处理。本篇博客将展示如何使用Scala编写一个简单的MapReduce程序来统计单词出现的次数。MapReduce程序：编写Mapper和Reducer。运行MapReduce任务：将Scala程序打包并提交到Hadoop 阅读全文

posted @ 2025-02-04 17:05 伐木工熊大阅读(3) 评论(0) 推荐(0) 编辑

2025/2/3

摘要：HDFS（Hadoop Distributed File System）是Hadoop的核心组件之一，用于存储大规模数据集。本篇博客将介绍如何使用HDFS进行数据存储和管理。HDFS架构：NameNode和DataNode的角色。HDFS操作：上传、下载、查看文件。示例代码： # 查看HDFS中的文阅读全文

posted @ 2025-02-03 13:41 伐木工熊大阅读(3) 评论(0) 推荐(0) 编辑

2025/2/2

摘要：Hadoop是一个开源的分布式计算框架，用于处理大规模数据集。本篇博客将介绍如何在本地搭建Hadoop单机模式环境。安装Hadoop：下载并解压Hadoop。配置Hadoop：配置core-site.xml和hdfs-site.xml。启动Hadoop：启动HDFS和YARN服务。示例代码：下载Ha 阅读全文

posted @ 2025-02-02 19:58 伐木工熊大阅读(4) 评论(0) 推荐(0) 编辑

2025/2/1

摘要：Hadoop是一个开源的分布式计算框架，用于处理大规模数据集。Scala可以通过编写MapReduce程序与Hadoop集成，实现高效的数据处理。Hadoop环境搭建：安装Hadoop并配置单机模式。Scala编写MapReduce程序：使用Hadoop的API编写MapReduce任务。示例代码：阅读全文

posted @ 2025-02-01 14:31 伐木工熊大阅读(3) 评论(0) 推荐(0) 编辑

zhenaifen

02 2025 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

最新评论