爬虫 - 随笔分类 - pythoner_wl

爬虫——scrapy框架

摘要：今日内容 scrapy 架构 # 通用的网络爬虫框架,爬虫界的django 5大组件 -引擎(EGINE)：大总管，负责控制数据的流向 -调度器(SCHEDULER)：由它来决定下一个要抓取的网址是什么，去重 -下载器(DOWLOADER)：用于下载网页内容, 并将网页内容返回给EGINE，下载器是阅读全文

posted @ 2020-08-06 18:24 pythoner_wl 阅读(147) 评论(0) 推荐(0)

爬虫小例子

摘要：不需要处理cookies——爬拉勾网职位信息 import requests # 原始的 url 从这里先获取 cookies urls ='https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=' # 阅读全文

posted @ 2020-08-06 18:11 pythoner_wl 阅读(220) 评论(0) 推荐(0)

爬虫原理

摘要：爬虫简介爬虫：网络蜘蛛爬虫本质： -> 模拟浏览器发送请求（requests，selenium） -> 下载网页代码 -> 提取有用的数据（bs4，xpath，re） -> 存放于数据库或文件中（文件，excel，mysql，redis，mongodb）流程发送请求：请求地址（浏览器阅读全文

posted @ 2020-08-06 14:57 pythoner_wl 阅读(106) 评论(0) 推荐(0)

爬虫——css选择器和 xpath选择器

摘要：css选择器 ret=soup.select('#my_p') ret=soup.select('body p') # 子子孙孙 ret=soup.select('body>p') # 直接子节点（儿子） ret=soup.select('body>p')[0].text # 直接子节点（儿子） x 阅读全文

posted @ 2020-08-06 14:44 pythoner_wl 阅读(385) 评论(0) 推荐(0)

爬虫——selenium模块

摘要：selenium使用为了解决requests无法直接执行JavaScript代码的问题安装 pip3 install selenium 浏览器驱动浏览器驱动:http://npm.taobao.org/mirrors/chromedriver/ 驱动要跟浏览器版本对应 84.0.4147.10 阅读全文

posted @ 2020-08-06 10:00 pythoner_wl 阅读(120) 评论(0) 推荐(0)

验证码——打码平台

摘要：验证码破解之-打码平台介绍 # 1 验证码破解图像处理 # 2 专业打码平台，破解验证码（收费） # 申请超级鹰，注册 # 登录，下载sdk（代码如下），填入用户名密码，软件id #!/usr/bin/env python # coding:utf-8 import requests from h 阅读全文

posted @ 2020-08-04 14:47 pythoner_wl 阅读(925) 评论(0) 推荐(0)

代理池和 cookie池搭建

摘要：代理池搭建 # github，下载免费代理池开源代码 # git clone git@github.com:jhao104/proxy_pool.git # pycharm打开，修改配置文件（reids地址修改） # 启动爬虫： python proxyPool.py schedule # 启动服务阅读全文

posted @ 2020-08-04 14:46 pythoner_wl 阅读(356) 评论(0) 推荐(0)

爬虫——bs4模块

摘要：bs4——解析文档数据安装 pip3 install beautifulsoup4 # 解析html和xml，修改html和xml import requests from bs4 import BeautifulSoup # 文档容错能力，不是一个标准的html也能解析 soup=Beautif 阅读全文

posted @ 2020-08-04 14:44 pythoner_wl 阅读(120) 评论(0) 推荐(0)

爬虫——requests模块

摘要：requests模块安装 pip3 install requests 图片防盗链 referer 从哪个网页来的,爬取的时候带上 url的编码和解码路径出现%... from urllib.parse import urlencode,unquote print(unquote('%E7%BE% 阅读全文

posted @ 2020-07-31 18:59 pythoner_wl 阅读(111) 评论(0) 推荐(0)

pythoner_wl

随笔分类 - 爬虫

公告