数据采集第一次作业

作业已上传gitee：https://gitee.com/chen-gaofei/crawl_projects

作业第一题

要求：用requests和BeautifulSoup库方法定向爬取给定网址（http://www.shanghairanking.cn/rankings/bcur/2020）的数据，屏幕打印爬取的大学排名信息。
代码：https://gitee.com/chen-gaofei/crawl_projects/blob/master/作业1/.爬取大学排名.py
运行结果截图：

心得体会：这题是之前作业里做过的，相对简单。做这道题的过程中对html的结构有了更深刻的理解。

发送HTTP请求并获取网页内容：
- 使用urllib.request.urlopen(url)发送HTTP请求，并使用response.read()读取网页内容。
- 使用BeautifulSoup解析网页内容：
查找包含表格数据的元素：
- table = soup.find('table')：在解析后的HTML中查找第一个标签，即包含表格数据的元素。
- 获取所有表格行：
  - table_rows = table.find_all('tr')：获取表格中的所有
- 遍历表格行并提取数据：
  - for row in table_rows[1:]：跳过第一行（通常是表头），遍历剩余的每一行。
  - columns = row.find_all('td')：获取当前行的所有<td>标签，即单元格。
  - ‘’‘rank = columns[0].get_text(strip=True)等：从每个单元格中提取文本内容，并去除多余的空格。

posted @ 2024-10-15 19:41 Valerie2077 阅读(8) 评论(0) 编辑收藏举报

刷新页面返回顶部