作业4

作业①:

要求:
熟练掌握 Selenium 查找HTML元素、爬取Ajax网页数据、等待HTML元素等内容。
使用Selenium框架+ MySQL数据库存储技术路线爬取“沪深A股”、“上证A股”、“深证A股”3个板块的股票数据信息。
候选网站:东方财富网:http://quote.eastmoney.com/center/gridlist.html#hs_a_board
输出信息:MYSQL数据库存储和输出格式如下,表头应是英文命名例如:序号id,股票代码:bStockNo……,由同学们自行定义设计表头:
运行截图:

Gitee文件夹链接:https://gitee.com/chen-gaofei/crawl_projects/blob/master/作业4/mocc.py

心得体会:

这题跟第二题相比简单很多。先查找三个板块的网页链接,查找链接下的所有股票数据,并写入数据库。很顺利,顺手做了数据清理。

作业②:

要求:
熟练掌握 Selenium 查找HTML元素、实现用户模拟登录、爬取Ajax网页数据、等待HTML元素等内容。
使用Selenium框架+MySQL爬取中国mooc网课程资源信息(课程号、课程名称、学校名称、主讲教师、团队成员、参加人数、课程进度、课程简介)
候选网站:中国mooc网:https://www.icourse163.org
输出信息:MYSQL数据库存储和输出格式
Gitee文件夹链接:https://gitee.com/chen-gaofei/crawl_projects/blob/master/作业4/stocks.py
运行截图:

心得体会:动态iframe加载的登录很容易出错,包括登录后的隐私政策同意按钮也很难找。一开始我爬取主页下的“精品课程”的内容,一直出错于是改用现在搜索框搜索“课程”再查找数据的方法。

作业三

之前完成并且上交在qq作业当中了。

posted @ 2024-11-13 10:45  Valerie2077  阅读(2)  评论(0编辑  收藏  举报