随笔分类 - 爬虫
摘要:scrapy 介绍 #1 通用的网络爬虫框架,爬虫界的django #2 scrapy执行流程 5大组件 -引擎(EGINE):大总管,负责控制数据的流向 -调度器(SCHEDULER):由它来决定下一个要抓取的网址是什么,去重 -下载器(DOWLOADER):用于下载网页内容, 并将网页内 容返回
阅读全文
摘要:为了解决requests无法直接执行JavaScript代码的问题 安装 pip3 install selenium # 浏览器驱动:http://npm.taobao.org/mirrors/chromedriver/ # 驱动要跟浏览器版本对应 84.0.4147.105:驱动用84.0.414
阅读全文
摘要:# xpath: XPath 是一门在 XML 文档中查找信息的语言 # / :从根节点选取。 # // :不管位置,直接找 # /@属性名 # /text() 案例: doc=''' <html> <head> <base href='http://example.com/' /> <title>
阅读全文
摘要:代理池搭建 # github,下载免费代理池开源代码(建议读一下别人的代码) # git clone git@github.com:jhao104/proxy_pool.git # pycharm打开,修改配置文件(reids地址修改) # 启动爬虫: python proxyPool.py sch
阅读全文
摘要:bs4的使用 # 遍历文档树 # 搜索文档树(5种过滤规则) # limit和recursive参数 import requests # pip3 install beautifulsoup4 解析html和xml,修改html和xml from bs4 import BeautifulSoup #
阅读全文
摘要:使用requests库模拟浏览器的,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib) 注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的requests请求 爬虫介绍: 爬虫本质 模拟浏览器
阅读全文