大三寒假大数据学习 - 随笔分类 - a_true

25.2.15（收拾东西）

摘要：收拾东西，准备开学阅读全文

posted @ 2025-02-15 22:35 a_true 阅读(9) 评论(0) 推荐(0)

25.2.14（情人节）

摘要：情人节，玩一天阅读全文

posted @ 2025-02-14 22:01 a_true 阅读(8) 评论(0) 推荐(0)

25.2.13（玩一天）

摘要：县城过会，玩一天阅读全文

posted @ 2025-02-13 23:23 a_true 阅读(6) 评论(0) 推荐(0)

25.2.12（爬虫学习7）

摘要：七、总结爬虫的基本流程：发送请求,解析网页,提取并保存数据. 常用库：requests 用于发送请求,BeautifulSoup 用于解析HTML. 进阶技术：处理动态网页需要用到 Selenium,而大规模爬取可以使用 Scrapy 框架. 应对反爬：通过伪装请求头、设置延迟以及使用代理IP等方式阅读全文

posted @ 2025-02-12 17:30 a_true 阅读(21) 评论(0) 推荐(0)

25.2.11（爬虫学习6）

摘要：六、保存数据当我们提取到需要的信息后,通常需要将数据保存起来,常见的保存方式有保存到CSV文件或数据库. 1. 保存到CSV文件 import csv # 保存数据到CSV文件 with open('data.csv', 'w', newline='', encoding='utf-8') as 阅读全文

posted @ 2025-02-11 15:06 a_true 阅读(23) 评论(0) 推荐(0)

25.2.10（玩一天）

摘要：同学聚会玩一天阅读全文

posted @ 2025-02-10 17:06 a_true 阅读(7) 评论(0) 推荐(0)

25.2.9（爬虫学习5）

摘要：五、爬虫常见问题及解决方案 1. 网页反爬机制有些网站不允许爬虫访问,通常会通过检测请求头或IP地址来防止爬虫访问.为了绕过这种限制,我们可以伪装成正常用户. 解决方法：添加请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; W 阅读全文

posted @ 2025-02-09 11:06 a_true 阅读(40) 评论(0) 推荐(0)

25.2.8（爬虫学习4）

摘要：四、爬虫的分类1. 简单爬虫（静态网页）如果网页是静态的,所有的数据直接在HTML代码中呈现,这种网页最容易爬取.以上示例就是一个典型的静态网页爬虫. 2. 动态爬虫（处理JavaScript生成的内容）有些网页的数据不是直接在HTML中,而是通过JavaScript动态生成的.这类网页需要更复杂的阅读全文

posted @ 2025-02-08 22:02 a_true 阅读(12) 评论(0) 推荐(0)

25.2.7（爬虫学习3）

摘要：三、简单爬虫示例接下来,我们会编写一个简单的爬虫,从一个网页上获取数据. 1. 获取网页内容第一步是使用 requests 库来获取网页的内容.我们以获取百度首页为例. import requests # 发送请求获取网页内容 url = 'https://www.baidu.com' resp 阅读全文

posted @ 2025-02-07 17:12 a_true 阅读(20) 评论(0) 推荐(0)

25.2.6（爬虫学习2）

摘要：二、常用爬虫库在Python中,有两个非常流行的库用于爬虫开发： requests：用于发送网络请求,获取网页内容. BeautifulSoup：用于解析网页内容,提取需要的数据. 1. 安装库首先,你需要安装这两个库.在命令行中执行以下命令： pip install requests beau 阅读全文

posted @ 2025-02-06 21:24 a_true 阅读(20) 评论(0) 推荐(0)

25.2.5（玩一天）

摘要：去了赵县赵州桥阅读全文

posted @ 2025-02-05 19:37 a_true 阅读(23) 评论(0) 推荐(0)

25.2.4（同学聚会）

摘要：同学聚会玩一天阅读全文

posted @ 2025-02-04 22:07 a_true 阅读(7) 评论(0) 推荐(0)

25.2.3（爬虫学习1）

摘要：爬虫是指通过编程自动从网页上获取信息的技术.想象你平时打开网页,右键点击 “查看源代码”,那些你看到的HTML代码就是网页的结构,而爬虫就像一位帮你阅读这些网页内容的“机器人”. 一、爬虫的基本流程发送请求：爬虫向目标网页发送请求,获取网页内容. 解析网页：从返回的网页内容中提取你需要的信息. 保阅读全文

posted @ 2025-02-03 22:56 a_true 阅读(9) 评论(0) 推荐(0)

25.2.2（玩一天）

摘要：去了革命圣地西柏坡阅读全文

posted @ 2025-02-02 20:42 a_true 阅读(8) 评论(0) 推荐(0)

25.2.1（学习总结）

摘要：通过对 Hadoop 核心技术的学习，我不仅掌握了大数据处理的基本原理和方法，还学会了如何使用 Hadoop 生态系统中的各种工具和技术来解决实际问题。在学习过程中，我深刻体会到了分布式系统的强大之处。Hadoop 通过将大规模数据集分布存储在多个节点上，并利用 MapReduce 编程模型进行并阅读全文

posted @ 2025-02-01 21:08 a_true 阅读(14) 评论(0) 推荐(0)

25.1.31（YARN3）

摘要：3. 与传统资源管理方式对比与传统的 Hadoop 1.0 中的资源管理方式相比，YARN 具有明显的优势。在 Hadoop 1.0 中，MapReduce 既是计算框架又是资源管理框架，这使得它在扩展性和灵活性方面存在一定的局限性。而 YARN 将资源管理和计算框架分离，使得不同的计算框架可以共享阅读全文

posted @ 2025-01-31 18:08 a_true 阅读(20) 评论(0) 推荐(0)

25.1.30（大年初二）

摘要：大年初二去姥娘家阅读全文

posted @ 2025-01-30 23:09 a_true 阅读(8) 评论(0) 推荐(0)

25.1.29（新年快乐！）

摘要：祝大家新年快乐！！阅读全文

posted @ 2025-01-29 23:32 a_true 阅读(7) 评论(0) 推荐(0)

25.1.28（YARN2）

摘要：2. 架构解析 YARN 采用了主从架构，由 ResourceManager（RM）、NodeManager（NM）和 ApplicationMaster（AM）三个组件组成。 ResourceManager 是整个集群资源的管理者，它负责接收客户端的应用程序提交请求，为应用程序分配资源（如 CPU 阅读全文

posted @ 2025-01-28 20:15 a_true 阅读(15) 评论(0) 推荐(0)

25.1.27（YARN1）

摘要：1. 功能概述 YARN（Yet Another Resource Negotiator）是 Hadoop 2.0 引入的一种新的资源管理系统，它负责管理集群中的计算资源，并为各种应用程序分配资源。 YARN 的主要功能包括：资源管理、任务调度和应用程序管理。它将资源管理和任务调度从 MapRedu 阅读全文

posted @ 2025-01-27 20:09 a_true 阅读(23) 评论(0) 推荐(0)

atrue

随笔分类 - 大三寒假大数据学习

公告