爬虫 - 文章分类 - 我是小弟弟

requests与urllib

摘要：Requests数据抓取 1. Requests简介与安装 Requests是python的一个HTTP客户端库，几乎可以解决我们遇到的任何爬虫问题，其强大简洁的API足以让人体会到python的优雅。 Windows下安装通过pip install requests 之后可以在CMD下运行pyth 阅读全文

posted @ 2022-11-01 11:47 我是小弟弟阅读(50) 评论(0) 推荐(0)

Fiddler使用教程

摘要：Fiddler使用教程 Fiddler是一个很好用的用c#编写的HTTP网络抓包工具，使用它的话，我们就不必再浏览器的开发者工具里分析页面了，可以在更加专业和智能化的Fiddler里面对页面参数进行请求调试。 1.下载Fiddler 首先是它的下载地址，下载好之后直接安装就可以了。 https:// 阅读全文

posted @ 2022-11-01 11:37 我是小弟弟阅读(1010) 评论(0) 推荐(0)

理解网络爬虫

摘要：网络爬虫的定义当今最大的网络是互联网，最大的爬虫就是各类搜索引擎，包括谷歌丶百度等。网络爬虫就是按照一定规则去爬去人类所需要的信息的程序，主要通过对URL的请求来实现。一般来说，从搜索引擎这类爬虫搜索到的信息是非常宽泛的，而且夹杂着各种广告，信息是不纯粹的，也有可能不是我们需要的。这种时候，就需要阅读全文

posted @ 2022-11-01 11:00 我是小弟弟阅读(401) 评论(0) 推荐(0)

python通用内容提取库的使用

摘要：from bluextracter import Extractor if __name__ == '__main__': extacert = Extractor()#实例提取类 url = 'https://m.huicaiba.com/ask/5426118.html' resp = requ 阅读全文

posted @ 2022-04-06 02:36 我是小弟弟阅读(1184) 评论(0) 推荐(0)

python爬虫通用下载函数（requests库）

摘要：自动识别网页编码,需要用到的库 requests chadat def download(url: str, retires: int = 3) -> str: try: r = requests.get(url, headers=headers, timeout=10) except reques 阅读全文

posted @ 2022-04-06 02:06 我是小弟弟阅读(223) 评论(0) 推荐(0)

爬虫之自动获取网页编码的方法

摘要：找到一个通用内容提取的包，但是提取内容时发现不同网站编码不同，这时需要自动识别网站编码，下面记录一下收集到的方法：方法1：通过网页源码，正则匹配出网站编码格式 def _get_encoding(html): encoding = re.findall('<meta.*?charset="?([\ 阅读全文

posted @ 2022-04-06 01:58 我是小弟弟阅读(296) 评论(0) 推荐(0)

我是小弟弟

文章分类 - 爬虫