数据采集第二次作业
数据采集第二次作业
作业1:
1、实验内容
要求:
在中国气象网(http://www.weather.com.cn)给定城市集的7日天气预报,并保存在数据库。
输出信息:
序号 | 地区 | 日期 | 天气信息 | 温度 |
---|---|---|---|---|
1 | 北京7日(今天) | 晴间多云,北部山区有阵雨或雷阵雨转晴转多云 | 31℃/17℃ | |
2 | 北京8日(明天) | 多云转晴,北部地区有分散阵雨或雷阵雨转晴 | 34℃/20℃ | |
3 | 北京9日(后台) | 晴转多云 | 36℃/22℃ | |
4 | 北京10日(周六) | 阴转阵雨 | 30℃/19℃ | |
5 | 北京11日(周日) | 阵雨 | 27℃/18℃ | |
6 | ... |
运行结果
代码如下:
https://gitee.com/kilig-seven/crawl_project/blob/master/%E7%AC%AC%E4%BA%8C%E6%AC%A1%E5%A4%A7%E4%BD%9C%E4%B8%9A/weather%20clawer.py
作业2:
1、实验内容
要求:
用requests和自选提取信息方法定向爬取股票相关信息,并存储在数据库中。
输出信息:
序号 | 股票代码 | 股票名称 | 最新报价 | 涨跌幅 | 涨跌额 | 成交量 | 成交额 | 振幅 | 最高 | 最低 | 今开 | 昨收 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 688093 | N世华 | 28.47 | 62.22% | 10.92 | 26.13万 | 7.6亿 | 22.3% | 32.0 | 28.08 | 30.2 | 17.55 |
2 | ... |
运行结果
代码:
https://gitee.com/kilig-seven/crawl_project/blob/master/%E7%AC%AC%E4%BA%8C%E6%AC%A1%E5%A4%A7%E4%BD%9C%E4%B8%9A/weather%20clawer.py
心得:
熟悉了数据库的基本操作手法,与打开数据库文件的必要手段。当数据爬取以json格式存储时,数据以列表的方式存储,只需要知道各个数据的所在位置就可以轻松进行爬取。
作业3:
1、实验内容
要求:
爬取中国大学2021主榜(https://www.shanghairanking.cn/rankings/bcur/2021) 所有院校信息,并存储在数据库中,同时将浏览器F12调试分析的过程录制Gif加入至博客中。
输出信息:
排名 | 学校 | 总分 |
---|---|---|
1 | 清华大学 | 969.2 |
2 | ... |
运行结果:
代码:
https://gitee.com/kilig-seven/crawl_project/blob/master/%E7%AC%AC%E4%BA%8C%E6%AC%A1%E5%A4%A7%E4%BD%9C%E4%B8%9A/University.py
心得:
在创建数据库时,由于创建语句在双引号内,所以中文字符不会被编译器所报错,在创建table时要格外注意,否则就有可能出现难以找到的报错。
GIF: