数据采集第一次大作业

第一次作业

一、作业内容

作业①:

– 要求：用urllib和re库方法定向爬取给定网址（https://www.shanghairanking.cn/rankings/bcsr/2020/0812 ）的数据。

– 输出信息：

2020排名	2019排名	全部层次	学校类型	总分
1	2	前2%	中国人民大学	1069.0
2......

主要步骤：

　　1.分析网页，查找表格元素所在地

　　2.urlib请求网页

　　3.定位表格，用re提取内容

info = re.findall(r'<div class="ranking" data-v-68e330ae>(.*?)</div>.*?</span></td><td data-v-68e330ae>(.*?)<!----></td><td class="align-left" data-v-68e330ae>.*?class="name-cn" data-v-b80b4d60>(.*?) </a> <div class="collection".*?</div></div> <!----> <!----> <!----> <!----></div></div></td><td data-v-68e330ae>(.*?)</td></tr>',res)
print("学校排名          学校层次           学校名称           总分")
for i in info:
    print(f"{i[0].strip():<17}{i[1].strip():<17}{i[2].strip():<15}{i[3].strip():<17}")