摘要: 爬取网站:https://www.shanghairanking.cn/rankings/bcur/2020 爬取内容:网站第1页左侧30个大学的排名 爬取网页源码部分的html: 一、代码优化前 运行结果: 二、代码优化后 运行结果: 三、增加将结果写入本地文件的功能 运行结果: 如果希望输出到本 阅读全文
posted @ 2021-02-07 16:25 夏圈圈儿 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 1、爬取某网站内容时,返回的结果为乱码,如图: 2、写在前面的解释 Requests会基于HTTP头部响应的编码做出有根据的推测,当访问r.text时,Requests会使用其推测的文本编码。 查看网页返回的字符集类型:r.apparent_encoding 查看自动判断的字符集类型:r.encod 阅读全文
posted @ 2021-02-07 15:34 夏圈圈儿 阅读(3020) 评论(0) 推荐(0) 编辑
摘要: 一、BeautifulSoup库简介 BeautifulSoup是一个灵活方便的网页解析库,处理搞笑,支持多种解析器。利用它可以不用编写正则表达式就可以方便的实现网页信息的抓取。 BeautifulSoup是爬虫必学技能,其最主要的功能是从网页抓取数据。BeautifulSoup自动的将输入文档转换 阅读全文
posted @ 2021-02-07 11:38 夏圈圈儿 阅读(3206) 评论(0) 推荐(0) 编辑