2018 年 10月 26 日随笔档案 - Gloo

scrapy模拟登录

摘要：对于scrapy来说，也是有两个方法模拟登陆： 1. 直接携带cookie 2. 找到发送post请求的url地址，带上信息，发送请求 scrapy模拟登陆之携带cookie 应用场景： 1. cookie过期时间很长，常见于一些不规范的网站 2. 能在cookie过期之前把搜有的数据数据拿到 3. 阅读全文

posted @ 2018-10-26 22:47 Gloo 阅读(154) 评论(0) 推荐(0) 编辑

scrapy入门使用

摘要： scrapy入门 1. 创建一个scrapy项目 scrapy startporject mySpider 2. 生产一个爬虫 scrapy genspider itcast "itcast.cn" 3. 提取数据完善spider,使用xpath等方法 4. 保存数据 pipeline中保存数据阅读全文

posted @ 2018-10-26 22:45 Gloo 阅读(172) 评论(0) 推荐(0) 编辑

scrapy流程

摘要： ![](https://img2018.cnblogs.com/blog/1345415/201810/1345415-20181026223921752-821545930.png) ![](https://img2018.cnblogs.com/blog/1345415/201810/1345415-20181026224030973-2012180206.png) ![](https:/... 阅读全文

posted @ 2018-10-26 22:42 Gloo 阅读(193) 评论(0) 推荐(0) 编辑

Tesseract

摘要： 1. 定义 Tesseract是一个将图像翻译成文字的OCR库（光学文字识别，Optical Character Recognition） 2. 安装 sudo apt get install tesseract ocr 3. 在python中调用Tesseract pip install pyte 阅读全文

posted @ 2018-10-26 22:38 Gloo 阅读(233) 评论(0) 推荐(0) 编辑

动态HTMl处理

摘要：后续爬虫代码的建议尽量减少请求次数 1. 能抓列表页就不抓详情页 2. 保存获取的html页面，供差错和重复请求使用关注网站的所有类型的页面 1. wap页面，触屏版页面 2. H5页面 3. APP 多伪装 1. 动态的UA 2. 代理ip 3. 不使用cookie 利用多线程分布式在不被b 阅读全文

posted @ 2018-10-26 22:37 Gloo 阅读(195) 评论(0) 推荐(0) 编辑

寻求js

摘要：寻找登录的post地址在form表单中寻找action对应的url地址 post的数据是input标签中的name值作为键，真正的用户名密码作为值得字典，post的url地址就是action对应的url地址抓包，寻找登录的url地址勾选presever log按钮，防止页面跳转不到url 寻找阅读全文

posted @ 2018-10-26 22:35 Gloo 阅读(94) 评论(0) 推荐(0) 编辑

requests模块

摘要： requests使用入门问题：为什么要学习requests，而不是urllib? 1. requests的底层实现就是urllib 2. requests在python2和python3中通用，方法完全一样 3. requests简单易用 4. requests能够自动帮助我们解压（gzip压缩的阅读全文

posted @ 2018-10-26 22:33 Gloo 阅读(142) 评论(0) 推荐(0) 编辑

导航

2018年10月26日