拐弯 - 博客园

2019年4月22日

摘要： CrawlSpider 全站数据爬取创建 crawlSpider 爬虫文件 + scrapy genspider t crawl chouti www.xxx.com 对于简介与详情不是一个 item 的存储思路: 基于手动请求发送的形式：对所有页面表示的url发起请求，获取页面数据，进行解析阅读全文

posted @ 2019-04-22 12:28 拐弯阅读(411) 评论(0) 推荐(0) 编辑

Scrapy 框架使用 selenium 爬取动态加载内容

摘要：使用 selenium 爬取动态加载内容 + 开启中间件 1. 在爬虫文件中创建浏览器对象使用爬虫文件的 __init__ 方法数据解析: 2. 操作在 process_response(self,request,response,spider) 中编写浏览器自动化操作进行点击或者阅读全文

posted @ 2019-04-22 12:27 拐弯阅读(869) 评论(0) 推荐(0) 编辑

Scrapy 框架中间件代理IP 提高效率

摘要：中间件 + 拦截请求跟响应 + 进行ua(User Agent ) 伪装代理 IP 中间件位置: 1. 引擎和下载器中间的中间件 ( 下载中间件) 2. 引擎跟 spider 中间的中间件 ( 爬虫中间件)(不常用) 下载中间件中的ua 伪装 + 下载中间件可以拦截调度器发送给下载器的请阅读全文

posted @ 2019-04-22 12:25 拐弯阅读(1031) 评论(0) 推荐(0) 编辑

Scrapy 框架手动发送请求 POST 请求的发送

摘要：手动发送请求 python import scrapy from choutiSpider.items import ChoutispiderItem class ChoutiSpider(scrapy.Spider): name = 'chouti' allowed_domains = ['www 阅读全文

posted @ 2019-04-22 12:21 拐弯阅读(608) 评论(0) 推荐(0) 编辑

Scrapy 框架安装五大核心组件 settings 配置管道存储

摘要： scrapy 框架的使用博客: https://www.cnblogs.com/bobo zhang/p/10561617.html 安装: 1. pip install wheel 2. 下载下载地址: https://www.lfd.uci.edu/~gohlke/pythonlibs/ 3 阅读全文

posted @ 2019-04-22 12:19 拐弯阅读(506) 评论(0) 推荐(0) 编辑

selenium 使用

摘要： selenium selenium：可以让浏览器完成相关自动化的操作环境安装： pip install selenium 编码流程：导包创建某一款浏览器对象制定相关的行为动作 phantomJs:浏览器（无可视化界面）谷歌无头浏览器登录qq空间阅读全文

posted @ 2019-04-22 12:15 拐弯阅读(237) 评论(0) 推荐(0) 编辑

开启线程池爬取视频数据

摘要：使用线程池阅读全文

posted @ 2019-04-22 12:14 拐弯阅读(254) 评论(0) 推荐(0) 编辑

cookie 处理以及模拟登陆

摘要： cookie的处理 1.手动处理： cookie封装到headers 2.自动处理： 1.获取一个session对象 2.使用session对象进行请求的发送 3.作用：在使用session进行请求发送过程中如果产生了cookie，则cookie会被自动存储到session对象中 3. 使用fidd 阅读全文

posted @ 2019-04-22 12:12 拐弯阅读(793) 评论(0) 推荐(0) 编辑

代理 IP 云打码平台的使用

摘要：代理ip + 获取代理ip的网站： + 快代理 + 西祠代理 + www.goubanjia.com 云打码平台的使用官网url：http://www.yundama.com/demo.html 注册： 1.普通用户 2.开发者用户登录平台： 1.普通用户： 1.查询余额（题分） 2.开发者用户阅读全文

posted @ 2019-04-22 12:07 拐弯阅读(863) 评论(0) 推荐(0) 编辑

解析加密数据

摘要：解析加密数据 + 对一个新的网站进行爬取之前，首先要确定即将要进行爬取的数据是否为动态加载！ + 解析加密数据 + 爬取模板信息阅读全文

posted @ 2019-04-22 12:04 拐弯阅读(476) 评论(0) 推荐(0) 编辑

拐弯

公告