随笔分类 - 爬虫
摘要:今日内容 scrapy 架构 # 通用的网络爬虫框架,爬虫界的django 5大组件 -引擎(EGINE):大总管,负责控制数据的流向 -调度器(SCHEDULER):由它来决定下一个要抓取的网址是什么,去重 -下载器(DOWLOADER):用于下载网页内容, 并将网页内容返回给EGINE,下载器是
阅读全文
摘要:不需要处理cookies——爬拉勾网职位信息 import requests # 原始的 url 从这里先获取 cookies urls ='https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=' #
阅读全文
摘要:爬虫简介 爬虫:网络蜘蛛 爬虫本质: -> 模拟浏览器 发送请求(requests,selenium) -> 下载 网页代码 -> 提取 有用的数据(bs4,xpath,re) -> 存放 于数据库或文件中(文件,excel,mysql,redis,mongodb) 流程 发送请求:请求地址(浏览器
阅读全文
摘要:css选择器 ret=soup.select('#my_p') ret=soup.select('body p') # 子子孙孙 ret=soup.select('body>p') # 直接子节点(儿子) ret=soup.select('body>p')[0].text # 直接子节点(儿子) x
阅读全文
摘要:selenium使用 为了解决requests无法直接执行JavaScript代码的问题 安装 pip3 install selenium 浏览器驱动 浏览器驱动:http://npm.taobao.org/mirrors/chromedriver/ 驱动要跟浏览器版本对应 84.0.4147.10
阅读全文
摘要:验证码破解之-打码平台介绍 # 1 验证码破解 图像处理 # 2 专业打码平台,破解验证码(收费) # 申请超级鹰,注册 # 登录,下载sdk(代码如下),填入用户名密码,软件id #!/usr/bin/env python # coding:utf-8 import requests from h
阅读全文
摘要:代理池搭建 # github,下载免费代理池开源代码 # git clone git@github.com:jhao104/proxy_pool.git # pycharm打开,修改配置文件(reids地址修改) # 启动爬虫: python proxyPool.py schedule # 启动服务
阅读全文
摘要:bs4——解析文档数据 安装 pip3 install beautifulsoup4 # 解析html和xml,修改html和xml import requests from bs4 import BeautifulSoup # 文档容错能力,不是一个标准的html也能解析 soup=Beautif
阅读全文
摘要:requests模块 安装 pip3 install requests 图片防盗链 referer 从哪个网页来的,爬取的时候带上 url的编码和解码 路径出现%... from urllib.parse import urlencode,unquote print(unquote('%E7%BE%
阅读全文