随笔分类 -  爬虫

摘要:scrapy 介绍 #1 通用的网络爬虫框架,爬虫界的django #2 scrapy执行流程 5大组件 -引擎(EGINE):大总管,负责控制数据的流向 -调度器(SCHEDULER):由它来决定下一个要抓取的网址是什么,去重 -下载器(DOWLOADER):用于下载网页内容, 并将网页内 容返回 阅读全文
posted @ 2024-04-07 17:53 朱饱饱 阅读(36) 评论(0) 推荐(0) 编辑
摘要:为了解决requests无法直接执行JavaScript代码的问题 安装 pip3 install selenium # 浏览器驱动:http://npm.taobao.org/mirrors/chromedriver/ # 驱动要跟浏览器版本对应 84.0.4147.105:驱动用84.0.414 阅读全文
posted @ 2024-04-07 17:48 朱饱饱 阅读(10) 评论(0) 推荐(0) 编辑
摘要:# xpath: XPath 是一门在 XML 文档中查找信息的语言 # / :从根节点选取。 # // :不管位置,直接找 # /@属性名 # /text() 案例: doc=''' <html> <head> <base href='http://example.com/' /> <title> 阅读全文
posted @ 2024-04-07 17:42 朱饱饱 阅读(28) 评论(0) 推荐(0) 编辑
摘要:代理池搭建 # github,下载免费代理池开源代码(建议读一下别人的代码) # git clone git@github.com:jhao104/proxy_pool.git # pycharm打开,修改配置文件(reids地址修改) # 启动爬虫: python proxyPool.py sch 阅读全文
posted @ 2024-04-07 17:34 朱饱饱 阅读(40) 评论(0) 推荐(0) 编辑
摘要:bs4的使用 # 遍历文档树 # 搜索文档树(5种过滤规则) # limit和recursive参数 import requests # pip3 install beautifulsoup4 解析html和xml,修改html和xml from bs4 import BeautifulSoup # 阅读全文
posted @ 2024-04-07 17:33 朱饱饱 阅读(15) 评论(0) 推荐(0) 编辑
摘要:使用requests库模拟浏览器的,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib) 注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的requests请求 爬虫介绍: 爬虫本质 模拟浏览器 阅读全文
posted @ 2024-03-29 18:31 朱饱饱 阅读(32) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示