数据采集与融合技术作业一
作业一
1)要求:用requests和BeautifulSoup库方法定向爬取给定网址(http://www.shanghairanking.cn/rankings/bcur/2020 )的数据,屏幕打印爬取的大学排名信息。
2)实现代码:
# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到排名表格
table = soup.find('table')
# 找到表头
headers = [header.text.strip() for header in table.find_all('th')]
print('\t'.join(headers)) # 打印表头
# 遍历表格中的每一行
for row in table.find_all('tr')[1:]: # 跳过表头
cols = row.find_all('td')
if cols: # 确保行中有数据
rank = cols[0].text.strip()
name = cols[1].text.strip()
city = cols[2].text.strip()
school_type = cols[3].text.strip()
total_score = cols[4].text.strip()
print(f"{rank}\t{name}\t{city}\t{school_type}\t{total_score}")
运行结果:
3)心得:通过这次代码的运行得到的结果我发现了上一次的不足并做了修改和改正
作业二
1)要求:用urllib3.request和re库方法设计某个商城(自已选择)商品比价定向爬虫,爬取该商城,以关键词“书包”搜索页面的数据
2)示例代码:运行结果:
心得体会:通过这次代码的运行得到的结果我发现了上一次的不足并做了修改和改正
作业三
1)要求:o爬取一个给定网页( https://xcb.fzu.edu.cn/info/1071/4481.htm)或者自选网页的所有JPEG和JPG格式文件
输出信息:将自选网页内的所有JPEG和JPG文件保存在一个文件夹中,我爬取的是https://www.fzu.edu.cn/的图片
2)示例代码:
运行结果:
3)心得体会:通过这次代码的运行得到的结果我发现了上一次的不足并做了修改和改正