2018年10月26日

scrapy模拟登录

摘要：对于scrapy来说，也是有两个方法模拟登陆： 1. 直接携带cookie 2. 找到发送post请求的url地址，带上信息，发送请求 scrapy模拟登陆之携带cookie 应用场景： 1. cookie过期时间很长，常见于一些不规范的网站 2. 能在cookie过期之前把搜有的数据数据拿到 3. 阅读全文

posted @ 2018-10-26 22:47 Gloo 阅读(154) 评论(0) 推荐(0) 编辑

scrapy入门使用

摘要： scrapy入门 1. 创建一个scrapy项目 scrapy startporject mySpider 2. 生产一个爬虫 scrapy genspider itcast "itcast.cn" 3. 提取数据完善spider,使用xpath等方法 4. 保存数据 pipeline中保存数据阅读全文

posted @ 2018-10-26 22:45 Gloo 阅读(172) 评论(0) 推荐(0) 编辑

scrapy流程

摘要： ![](https://img2018.cnblogs.com/blog/1345415/201810/1345415-20181026223921752-821545930.png) ![](https://img2018.cnblogs.com/blog/1345415/201810/1345415-20181026224030973-2012180206.png) ![](https:/... 阅读全文

posted @ 2018-10-26 22:42 Gloo 阅读(193) 评论(0) 推荐(0) 编辑

Tesseract

摘要： 1. 定义 Tesseract是一个将图像翻译成文字的OCR库（光学文字识别，Optical Character Recognition） 2. 安装 sudo apt get install tesseract ocr 3. 在python中调用Tesseract pip install pyte 阅读全文

posted @ 2018-10-26 22:38 Gloo 阅读(233) 评论(0) 推荐(0) 编辑

动态HTMl处理

摘要：后续爬虫代码的建议尽量减少请求次数 1. 能抓列表页就不抓详情页 2. 保存获取的html页面，供差错和重复请求使用关注网站的所有类型的页面 1. wap页面，触屏版页面 2. H5页面 3. APP 多伪装 1. 动态的UA 2. 代理ip 3. 不使用cookie 利用多线程分布式在不被b 阅读全文

posted @ 2018-10-26 22:37 Gloo 阅读(195) 评论(0) 推荐(0) 编辑

寻求js

摘要：寻找登录的post地址在form表单中寻找action对应的url地址 post的数据是input标签中的name值作为键，真正的用户名密码作为值得字典，post的url地址就是action对应的url地址抓包，寻找登录的url地址勾选presever log按钮，防止页面跳转不到url 寻找阅读全文

posted @ 2018-10-26 22:35 Gloo 阅读(94) 评论(0) 推荐(0) 编辑

requests模块

摘要： requests使用入门问题：为什么要学习requests，而不是urllib? 1. requests的底层实现就是urllib 2. requests在python2和python3中通用，方法完全一样 3. requests简单易用 4. requests能够自动帮助我们解压（gzip压缩的阅读全文

posted @ 2018-10-26 22:33 Gloo 阅读(142) 评论(0) 推荐(0) 编辑

2018年10月11日

http服务器

摘要： 1. 返回固定页面的http服务器首先我们知道http协议是基于tcp协议的，所以我们只要使用套接字返回固定格式的字符串就可以在浏览器上显示浏览器显示效果：当我们完成一个简单的返回固定页面的http服务器后。我们就可以根据浏览器请求的url显示出固定的页面。实现一个静态http服务器。阅读全文

posted @ 2018-10-11 10:29 Gloo 阅读(288) 评论(0) 推荐(0) 编辑

2018年10月10日

几十行代码写一个简单的文件下载器

摘要：服务器代码：客户端代码：阅读全文

posted @ 2018-10-10 14:31 Gloo 阅读(618) 评论(0) 推荐(0) 编辑

2018年10月9日

协程greenlet、gevent

摘要： greenlet为了更好使用协程来完成多任务，python中greenlet模块对其封装，从而使得切换任务变得更加简单安装方式示例代码： geventgreenlet已经实现了协程，但是这个工人切换，是不是觉得太麻烦了，不要着急，python还有一个比greenlet更强大的并且能够自动切换任务的阅读全文

posted @ 2018-10-09 22:32 Gloo 阅读(3292) 评论(0) 推荐(0) 编辑

导航

2018年10月26日

2018年10月11日

2018年10月10日

2018年10月9日