上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 16 下一页
摘要: CrawlSpider 全站数据爬取 创建 crawlSpider 爬虫文件 + scrapy genspider t crawl chouti www.xxx.com 对于简介与详情不是一个 item 的存储 思路: 基于手动请求发送的形式:对所有页面表示的url发起请求,获取页面数据,进行解析 阅读全文
posted @ 2019-04-22 12:28 拐弯 阅读(408) 评论(0) 推荐(0) 编辑
摘要: 使用 selenium 爬取动态加载内容 + 开启中间件 1. 在爬虫文件中 创建 浏览器对象 使用 爬虫文件的 __init__ 方法 数据解析: 2. 操作在 process_response(self,request,response,spider) 中 编写 浏览器自动化操作 进行点击 或者 阅读全文
posted @ 2019-04-22 12:27 拐弯 阅读(866) 评论(0) 推荐(0) 编辑
摘要: 中间件 + 拦截请求跟响应 + 进行ua(User Agent ) 伪装 代理 IP 中间件位置: 1. 引擎 和下载器 中间 的中间件 ( 下载中间件) 2. 引擎 跟 spider 中间 的中间件 ( 爬虫中间件)(不常用) 下载中间件中的ua 伪装 + 下载中间件可以拦截调度器发送给下载器的请 阅读全文
posted @ 2019-04-22 12:25 拐弯 阅读(1030) 评论(0) 推荐(0) 编辑
摘要: 手动发送请求 python import scrapy from choutiSpider.items import ChoutispiderItem class ChoutiSpider(scrapy.Spider): name = 'chouti' allowed_domains = ['www 阅读全文
posted @ 2019-04-22 12:21 拐弯 阅读(606) 评论(0) 推荐(0) 编辑
摘要: scrapy 框架的使用 博客: https://www.cnblogs.com/bobo zhang/p/10561617.html 安装: 1. pip install wheel 2. 下载 下载地址: https://www.lfd.uci.edu/~gohlke/pythonlibs/ 3 阅读全文
posted @ 2019-04-22 12:19 拐弯 阅读(500) 评论(0) 推荐(0) 编辑
摘要: selenium selenium:可以让浏览器完成相关自动化的操作 环境安装: pip install selenium 编码流程: 导包 创建某一款浏览器对象 制定相关的行为动作 phantomJs:浏览器(无可视化界面) 谷歌无头浏览器 登录qq空间 阅读全文
posted @ 2019-04-22 12:15 拐弯 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 使用线程池 阅读全文
posted @ 2019-04-22 12:14 拐弯 阅读(252) 评论(0) 推荐(0) 编辑
摘要: cookie的处理 1.手动处理: cookie封装到headers 2.自动处理: 1.获取一个session对象 2.使用session对象进行请求的发送 3.作用:在使用session进行请求发送过程中如果产生了cookie,则cookie会被自动存储到session对象中 3. 使用fidd 阅读全文
posted @ 2019-04-22 12:12 拐弯 阅读(791) 评论(0) 推荐(0) 编辑
摘要: 代理ip + 获取代理ip的网站: + 快代理 + 西祠代理 + www.goubanjia.com 云打码平台的使用 官网url:http://www.yundama.com/demo.html 注册: 1.普通用户 2.开发者用户 登录平台: 1.普通用户: 1.查询余额(题分) 2.开发者用户 阅读全文
posted @ 2019-04-22 12:07 拐弯 阅读(850) 评论(0) 推荐(0) 编辑
摘要: 解析加密数据 + 对一个新的网站进行爬取之前,首先要确定即将要进行爬取的数据是否为动态加载! + 解析加密数据 + 爬取 模板信息 阅读全文
posted @ 2019-04-22 12:04 拐弯 阅读(476) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 16 下一页