爬虫 - 随笔分类 - 小满三岁啦

初始scrapy

摘要：楔子 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。安装方式1 pip install scrapy 方式2 如果方式1安装不了，在看此方式，如果方式1能正常安装，那就不需要查看此方式了。 # 1. 安装whe 阅读全文

posted @ 2024-04-04 20:32 小满三岁啦阅读(87) 评论(0) 推荐(0)

初始selenium

摘要：拓展阅读 https://zhuanlan.zhihu.com/p/453590557 安装 pip install selenium webdriver的下载谷歌浏览器：https://googlechromelabs.github.io/chrome-for-testing/ 进入后找到chr 阅读全文

posted @ 2024-04-02 16:07 小满三岁啦阅读(139) 评论(0) 推荐(0)

初始python请求库

摘要：写在前面爬虫：远离个人信息、灰黑产，本文仅供技术讨论，请自觉遵守robots协议。反爬虫的常见手段爬虫项目最复杂的不是页面信息的信息与提取，而是爬虫与反爬虫，反反爬虫之间的互相博弈。 User-Agent 浏览器的标志信息，会通过请求头传递给服务器，用以说明访问数据的浏览器信息。反爬虫：先检阅读全文

posted @ 2024-03-31 21:36 小满三岁啦阅读(45) 评论(0) 推荐(0)

初始xpath

摘要：包的安装 pip install lxml 谷歌浏览器插件安装 XPath Helper 可以自行搜索安装也可以点击：传送门解析流程与使用实例化一个etree的对象，把即将被解析的页面源码加载到该对象。调用该对象的xpath方法结合着不同形式的xpath表达式进行标签定位和数据提取 # 导入阅读全文

posted @ 2024-03-28 23:15 小满三岁啦阅读(45) 评论(0) 推荐(1)

初始bs4

摘要：官网教程地址：https://beautifulsoup.readthedocs.io/zh-cn/v4.4.0/ lxml、pyquery、bs4、re执行效率对比执行速度对比：https://www.jianshu.com/p/d9812bbce6b6 安装 # 二选一即可 pip instal 阅读全文

posted @ 2024-03-28 15:24 小满三岁啦阅读(60) 评论(0) 推荐(1)

重新认识正则

摘要：参考资料1：https://tool.oschina.net/uploads/apidocs/jquery/regexp.html 参考资料2：https://codejiaonang.com/#/ 必备知识正则匹配正则匹配是一个模糊的匹配，不是精确的匹配原子表 [ ] [a] 匹配字母a [ 阅读全文

posted @ 2024-03-26 21:30 小满三岁啦阅读(87) 评论(0) 推荐(0)

小满三岁啦

随笔分类 - 爬虫

公告