摘要:
今日内容 scrapy 架构 # 通用的网络爬虫框架,爬虫界的django 5大组件 -引擎(EGINE):大总管,负责控制数据的流向 -调度器(SCHEDULER):由它来决定下一个要抓取的网址是什么,去重 -下载器(DOWLOADER):用于下载网页内容, 并将网页内容返回给EGINE,下载器是 阅读全文
摘要:
不需要处理cookies——爬拉勾网职位信息 import requests # 原始的 url 从这里先获取 cookies urls ='https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=' # 阅读全文
摘要:
爬虫简介 爬虫:网络蜘蛛 爬虫本质: -> 模拟浏览器 发送请求(requests,selenium) -> 下载 网页代码 -> 提取 有用的数据(bs4,xpath,re) -> 存放 于数据库或文件中(文件,excel,mysql,redis,mongodb) 流程 发送请求:请求地址(浏览器 阅读全文
摘要:
css选择器 ret=soup.select('#my_p') ret=soup.select('body p') # 子子孙孙 ret=soup.select('body>p') # 直接子节点(儿子) ret=soup.select('body>p')[0].text # 直接子节点(儿子) x 阅读全文
摘要:
selenium使用 为了解决requests无法直接执行JavaScript代码的问题 安装 pip3 install selenium 浏览器驱动 浏览器驱动:http://npm.taobao.org/mirrors/chromedriver/ 驱动要跟浏览器版本对应 84.0.4147.10 阅读全文