09 2023 档案
爬虫记录~(多线程爬取图片)
摘要:要求: 使用Requests+Re库方法多线程爬取亚马逊商城商品图片,以关键词“书包”搜索页面的商品的图片,爬取0-2页面商品图片。 关键词: 多线程爬虫程序、商城网站的遍历,链接的查找和访问。巩固搜索接口和翻页处理。 代码: 获取图片数据 def get_pagelist(pagenum): ur
2023数据采集与融合技术实践第一次作业
摘要:作业①: 要求: 用requests和BeautifulSoup库方法定向爬取给定网址(http://www.shanghairanking.cn/rankings/bcur/2020 )的数据,屏幕打印爬取的大学排名信息。 输出信息: 排名 学校名称 省市 学校类型 总分 1 清华大学 北京 综合