作业4报告

一、作业①：爬取股票数据信息并存储到MySQL

通过使用 Selenium 框架与 MySQL 数据库，爬取“沪深A股”、“上证A股”、“深证A股”三个板块的股票数据。熟悉 Selenium 查找 HTML 元素、爬取 Ajax 网页数据、等待 HTML 元素等操作。

结果展示：

通过本作业，了解了如何使用 Selenium 爬取动态网页数据，尤其是 Ajax 请求的处理方式。
在实际操作中掌握了数据存储到 MySQL 数据库的步骤。

作业目标通过使用 Selenium 框架爬取中国 MOOC 网站（icourse163）的课程信息，包括课程号、课程名称、学校名称、主讲教师等。
实现步骤 - 模拟用户登录，进入课程列表页面。 - 使用 Selenium 定位并点击加载更多按钮，爬取课程数据。 - 提取课程相关信息并存储到 MySQL 数据库。 - 验证数据存储并输出结果。
代码实现
https://gitee.com/wang-hengjie-100/crawl_project/tree/master/4.2

结果展示

在爬取中国 MOOC 网的过程中，学会了如何模拟用户登录，获取动态加载的课程数据。
熟悉了 Selenium 中的等待策略，以及如何与 MySQL 数据库进行交互。
通过本作业掌握了如何将爬取的多种信息存储到关系型数据库中，便于后期的数据分析与使用。

完成大数据相关服务的配置与操作，包括 MapReduce、Kafka 和 Flume 等。通过实验熟悉 Xshell 使用及大数据的实时分析与处理。

posted on 2024-11-15 15:20 whj112 阅读(5) 评论(0) 编辑收藏举报

刷新页面返回顶部