爬虫 - 随笔分类 - 朱饱饱

scrapy 介绍，架构介绍（框架）

摘要：scrapy 介绍 #1 通用的网络爬虫框架,爬虫界的django #2 scrapy执行流程 5大组件 -引擎(EGINE)：大总管，负责控制数据的流向 -调度器(SCHEDULER)：由它来决定下一个要抓取的网址是什么，去重 -下载器(DOWLOADER)：用于下载网页内容, 并将网页内容返回阅读全文

posted @ 2024-04-07 17:53 朱饱饱阅读(79) 评论(0) 推荐(0)

selenium使用

摘要：为了解决requests无法直接执行JavaScript代码的问题安装 pip3 install selenium # 浏览器驱动:http://npm.taobao.org/mirrors/chromedriver/ # 驱动要跟浏览器版本对应 84.0.4147.105：驱动用84.0.414 阅读全文

posted @ 2024-04-07 17:48 朱饱饱阅读(48) 评论(0) 推荐(0)

xpath选择器使用

摘要：# xpath: XPath 是一门在 XML 文档中查找信息的语言 # / :从根节点选取。 # // :不管位置，直接找 # /@属性名 # /text() 案例： doc=''' <html> <head> <base href='http://example.com/' /> <title> 阅读全文

posted @ 2024-04-07 17:42 朱饱饱阅读(50) 评论(0) 推荐(0)

代理池搭建验证码破解之-打码平台介绍

摘要：代理池搭建 # github，下载免费代理池开源代码（建议读一下别人的代码） # git clone git@github.com:jhao104/proxy_pool.git # pycharm打开，修改配置文件（reids地址修改） # 启动爬虫： python proxyPool.py sch 阅读全文

posted @ 2024-04-07 17:34 朱饱饱阅读(82) 评论(0) 推荐(0)

bs4的使用遍历文档树

摘要：bs4的使用 # 遍历文档树 # 搜索文档树（5种过滤规则） # limit和recursive参数 import requests # pip3 install beautifulsoup4 解析html和xml，修改html和xml from bs4 import BeautifulSoup # 阅读全文

posted @ 2024-04-07 17:33 朱饱饱阅读(36) 评论(0) 推荐(0)

爬虫基础与安装

摘要：使用requests库模拟浏览器的，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib）注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的requests请求爬虫介绍：爬虫本质模拟浏览器阅读全文

posted @ 2024-03-29 18:31 朱饱饱阅读(96) 评论(0) 推荐(0)

随笔分类 - 爬虫

公告