2021 年 2月 7 日随笔档案 - 夏圈圈儿

2021年2月7日

摘要：爬取网站：https://www.shanghairanking.cn/rankings/bcur/2020 爬取内容：网站第1页左侧30个大学的排名爬取网页源码部分的html：一、代码优化前运行结果：二、代码优化后运行结果：三、增加将结果写入本地文件的功能运行结果：如果希望输出到本阅读全文

posted @ 2021-02-07 16:25 夏圈圈儿阅读(226) 评论(0) 推荐(0) 编辑

Python爬取网站返回的内容为乱码解决方法

摘要： 1、爬取某网站内容时，返回的结果为乱码，如图： 2、写在前面的解释 Requests会基于HTTP头部响应的编码做出有根据的推测，当访问r.text时，Requests会使用其推测的文本编码。查看网页返回的字符集类型：r.apparent_encoding 查看自动判断的字符集类型：r.encod 阅读全文

posted @ 2021-02-07 15:34 夏圈圈儿阅读(3020) 评论(0) 推荐(0) 编辑

【Python爬虫学习（1）】BeautifulSoup库的使用

摘要：一、BeautifulSoup库简介 BeautifulSoup是一个灵活方便的网页解析库，处理搞笑，支持多种解析器。利用它可以不用编写正则表达式就可以方便的实现网页信息的抓取。 BeautifulSoup是爬虫必学技能，其最主要的功能是从网页抓取数据。BeautifulSoup自动的将输入文档转换阅读全文

posted @ 2021-02-07 11:38 夏圈圈儿阅读(3206) 评论(0) 推荐(0) 编辑

兔飞小朋友

公告