随笔分类 -  爬虫

摘要:今日内容 scrapy 架构 # 通用的网络爬虫框架,爬虫界的django 5大组件 -引擎(EGINE):大总管,负责控制数据的流向 -调度器(SCHEDULER):由它来决定下一个要抓取的网址是什么,去重 -下载器(DOWLOADER):用于下载网页内容, 并将网页内容返回给EGINE,下载器是 阅读全文
posted @ 2020-08-06 18:24 pythoner_wl 阅读(124) 评论(0) 推荐(0) 编辑
摘要:不需要处理cookies——爬拉勾网职位信息 import requests # 原始的 url 从这里先获取 cookies urls ='https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=' # 阅读全文
posted @ 2020-08-06 18:11 pythoner_wl 阅读(158) 评论(0) 推荐(0) 编辑
摘要:爬虫简介 爬虫:网络蜘蛛 爬虫本质: -> 模拟浏览器 发送请求(requests,selenium) -> 下载 网页代码 -> 提取 有用的数据(bs4,xpath,re) -> 存放 于数据库或文件中(文件,excel,mysql,redis,mongodb) 流程 发送请求:请求地址(浏览器 阅读全文
posted @ 2020-08-06 14:57 pythoner_wl 阅读(98) 评论(0) 推荐(0) 编辑
摘要:css选择器 ret=soup.select('#my_p') ret=soup.select('body p') # 子子孙孙 ret=soup.select('body>p') # 直接子节点(儿子) ret=soup.select('body>p')[0].text # 直接子节点(儿子) x 阅读全文
posted @ 2020-08-06 14:44 pythoner_wl 阅读(366) 评论(0) 推荐(0) 编辑
摘要:selenium使用 为了解决requests无法直接执行JavaScript代码的问题 安装 pip3 install selenium 浏览器驱动 浏览器驱动:http://npm.taobao.org/mirrors/chromedriver/ 驱动要跟浏览器版本对应 84.0.4147.10 阅读全文
posted @ 2020-08-06 10:00 pythoner_wl 阅读(112) 评论(0) 推荐(0) 编辑
摘要:验证码破解之-打码平台介绍 # 1 验证码破解 图像处理 # 2 专业打码平台,破解验证码(收费) # 申请超级鹰,注册 # 登录,下载sdk(代码如下),填入用户名密码,软件id #!/usr/bin/env python # coding:utf-8 import requests from h 阅读全文
posted @ 2020-08-04 14:47 pythoner_wl 阅读(905) 评论(0) 推荐(0) 编辑
摘要:代理池搭建 # github,下载免费代理池开源代码 # git clone git@github.com:jhao104/proxy_pool.git # pycharm打开,修改配置文件(reids地址修改) # 启动爬虫: python proxyPool.py schedule # 启动服务 阅读全文
posted @ 2020-08-04 14:46 pythoner_wl 阅读(328) 评论(0) 推荐(0) 编辑
摘要:bs4——解析文档数据 安装 pip3 install beautifulsoup4 # 解析html和xml,修改html和xml import requests from bs4 import BeautifulSoup # 文档容错能力,不是一个标准的html也能解析 soup=Beautif 阅读全文
posted @ 2020-08-04 14:44 pythoner_wl 阅读(110) 评论(0) 推荐(0) 编辑
摘要:requests模块 安装 pip3 install requests 图片防盗链 referer 从哪个网页来的,爬取的时候带上 url的编码和解码 路径出现%... from urllib.parse import urlencode,unquote print(unquote('%E7%BE% 阅读全文
posted @ 2020-07-31 18:59 pythoner_wl 阅读(107) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示