随笔分类 - 爬虫
摘要:楔子 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 安装 方式1 pip install scrapy 方式2 如果方式1安装不了,在看此方式,如果方式1能正常安装,那就不需要查看此方式了。 # 1. 安装whe
阅读全文
摘要:拓展阅读 https://zhuanlan.zhihu.com/p/453590557 安装 pip install selenium webdriver的下载 谷歌浏览器:https://googlechromelabs.github.io/chrome-for-testing/ 进入后找到chr
阅读全文
摘要:写在前面 爬虫:远离个人信息、灰黑产,本文仅供技术讨论,请自觉遵守robots协议。 反爬虫的常见手段 爬虫项目最复杂的不是页面信息的信息与提取,而是爬虫与反爬虫,反反爬虫之间的互相博弈。 User-Agent 浏览器的标志信息,会通过请求头传递给服务器,用以说明访问数据的浏览器信息。 反爬虫:先检
阅读全文
摘要:包的安装 pip install lxml 谷歌浏览器插件安装 XPath Helper 可以自行搜索安装也可以点击: 传送门 解析流程与使用 实例化一个etree的对象,把即将被解析的页面源码加载到该对象。 调用该对象的xpath方法结合着不同形式的xpath表达式进行标签定位和数据提取 # 导入
阅读全文
摘要:官网教程地址:https://beautifulsoup.readthedocs.io/zh-cn/v4.4.0/ lxml、pyquery、bs4、re执行效率对比执行速度对比:https://www.jianshu.com/p/d9812bbce6b6 安装 # 二选一即可 pip instal
阅读全文
摘要:参考资料1:https://tool.oschina.net/uploads/apidocs/jquery/regexp.html 参考资料2:https://codejiaonang.com/#/ 必备知识 正则匹配 正则匹配是一个模糊的匹配,不是精确的匹配 原子表 [ ] [a] 匹配字母a [
阅读全文