爬虫 - 随笔分类 - 骑者赶路

商业爬虫

摘要：Day1 图书推荐图解HTTP，日本人写的爬虫用处诸葛工商大数据分类通用爬虫聚焦爬虫 https://www.jd.com/robots.txt Day2 User-Agent池 Ip代理池 Day4 一个用户在不同的地方，不同的浏览器不停的登录，很有可能被封。面试遇到过。解决方法：阅读全文

posted @ 2019-09-22 14:05 骑者赶路阅读(352) 评论(0) 推荐(0) 编辑

回顾爬虫

摘要：会用到的点模块 1 hashlib模块--加密。 update(string.encode('utf-8')) m.hexdigest() 2 requests模块 https://blog.csdn.net/shanzhizi/article/details/50903748 r = reque 阅读全文

posted @ 2019-06-12 22:35 骑者赶路阅读(466) 评论(1) 推荐(1) 编辑

爬虫的进阶须知

摘要：一设计抓取策略 1 深度优先 2 广度优先 3 部分的PageRank策略 4 OPIC策略 5 大站优先策略 https://blog.csdn.net/a575553272/article/details/80265182 https://blog.csdn.net/Bone_ACE/arti 阅读全文

posted @ 2018-06-13 19:16 骑者赶路阅读(214) 评论(0) 推荐(0) 编辑

爬取微信公众号

摘要：_biz 实际是Base64加密后的结果。可以对其解密。阅读全文

posted @ 2018-05-26 21:43 骑者赶路阅读(115) 评论(0) 推荐(0) 编辑

关于pymongo的一些说明

摘要：问题一：在pymongo中使用find是得到1个游标对象的,如果你想实现MongoDB shell中find操作,例如: 在pymongo中需要使用find_one方法而不是find方法: 所以在pymongo中，如果判断一条数据是否存在。这样写是错误的。因为find返回的是游标，条件判断永远成阅读全文

posted @ 2018-05-23 17:05 骑者赶路阅读(259) 评论(0) 推荐(0) 编辑

为什么要学习爬虫

摘要：一学习目的以及需求抓取某个网站或者某个应用的内容，提取有用的价值二实现手段模拟用户在浏览器或者应用（app）上的操作，实现自动化的程序三爬虫应用场景（利用爬虫能做什么？） 1 抢票神器 2 投票刷票神器 3 咨询报告拉勾网招聘职位数据分析报告 2016年中国外卖020行业发展报告 2 阅读全文

posted @ 2018-05-04 18:23 骑者赶路阅读(130) 评论(0) 推荐(0) 编辑

将selenium集成到scrapy框架中

摘要：一首先想到的是将selenium 写在下载中间件的process_request中。如以下代码。 middleware.py 但这有一个问题是，打开的selenium并不能关闭二可以考虑将driver放在spider中。好处有以下几点： 1 并不是每个spider 都是需要用selenium 阅读全文

posted @ 2018-05-01 22:47 骑者赶路阅读(190) 评论(0) 推荐(0) 编辑

爬取新浪微博

摘要：https://github.com/factsbenchmarks/Weibo 学到的东西。 1 习惯用logger，而不是用print 2 习惯用正则表达式这是在pipeline清理数据时用到的 3 time模块都快忘干净了吧 4 eval的妙用，还可以这样用！注释的是lowB代码。如果字段阅读全文

posted @ 2018-05-01 18:02 骑者赶路阅读(179) 评论(0) 推荐(0) 编辑

scrapy的调试方法

摘要：Parse命令，Scrapy shell，logging 一 Parse命令检查spider输出的最基本方法是使用Parse命令。这能让你在函数层上检查spider哥哥部分的效果，其十分灵活并且已用。不过不能在代码中测试。 https://docs.scrapy.org/en/latest/top 阅读全文

posted @ 2018-04-29 18:06 骑者赶路阅读(366) 评论(0) 推荐(0) 编辑

关于scarpy的一些说明

摘要：一 scrapy添加代理 1 内置代理：os.environ。固定格式，不推荐 2 自定义代理：通过中间件实现阅读全文

posted @ 2018-04-27 00:23 骑者赶路阅读(257) 评论(0) 推荐(0) 编辑

爬取腾讯漫画

摘要：一总结页面是异步加载，页面滑动的过程中，每张图片的url才显示。所以推荐selenium。同时需要selenium执行js代买，实现页面滚动的效果。就是window.scrollTo()方法。在用scrapy框架中，并不是所有的request都是需要经过用selenium。经过selenium 阅读全文

posted @ 2018-04-22 21:24 骑者赶路阅读(177) 评论(0) 推荐(0) 编辑

scrapy爬取用户信息 ---崔志才

摘要：这个实例还是值得多次看的其流程图如下，还是有一点绕的。总结： 1 Requst(rul=' xxx ',callback= ' ')，仅仅发起某个网页的访问请求，没啥了。剩下的交给回调函数 2 parse_()。对某个页面经过下载后的数据进行处理，包括逻辑判断，有可能比较复杂，提取想阅读全文

posted @ 2018-04-20 22:57 骑者赶路阅读(329) 评论(0) 推荐(0) 编辑

scrapy之download middleware

摘要：官方文档：https://docs.scrapy.org/en/latest/topics/downloader-middleware.html 一 write your own downloader middleware process_request(request,spider) return 阅读全文

posted @ 2018-04-19 22:15 骑者赶路阅读(131) 评论(0) 推荐(0) 编辑

远程采集

摘要：一为什么要用远程服务器两个目的：对更大计算能力和灵活性的需求和对可变IP地址的需求 1 避免IP地址被封杀建立网络爬虫的第一原则是：所有的信息都可以伪造。你可以用非本人的邮箱发送邮件，通过命令行自动化鼠标的行为。但有一件事情是不能作假的，那就是你的IP地址。阻止网站被采集的注意力主要集中阅读全文

posted @ 2018-04-19 18:23 骑者赶路阅读(155) 评论(0) 推荐(0) 编辑

常见的表单安全措施及应对策略

摘要：一隐含输入字段值字段的值对浏览器可见，但是对用户不可见。隐含字段主要用于阻止爬虫自动提交表单。用隐含字段阻止网络数据采集的方式主要有两种：第一种是表单页面上的一个字段可以用服务器生成的随机变量表示。如果提交时这个值不在表单处理页面上，服务器就有理由认为这个提交不是从原始表单页面上提交的，而是阅读全文

posted @ 2018-04-19 17:44 骑者赶路阅读(446) 评论(0) 推荐(0) 编辑

处理登录和cookie

摘要：做法 1：可以一步一步cookies，毫无疑问，这非常麻烦。做法 2 ： requests库自带的session模块完美解决这个问题。阅读全文

posted @ 2018-04-19 16:48 骑者赶路阅读(104) 评论(0) 推荐(0) 编辑

Python图像处理库PIL从入门到精通

摘要：https://blog.csdn.net/column/details/pythonpil.html 示例：输出： a.jpg ag.jpg b.jpg 阅读全文

posted @ 2018-04-19 15:35 骑者赶路阅读(189) 评论(0) 推荐(0) 编辑

pytesseract的使用

摘要：首先，先安装好Tesseract软件，pytesseract模块问题 1 ：FileNotFoundError: [WinError 2] 系统找不到指定的文件。加上这行代码方法 1 image_to_string() 输出：阅读全文

posted @ 2018-04-19 15:00 骑者赶路阅读(178) 评论(0) 推荐(0) 编辑

验证码处理

摘要：验证码（CAPTCHA）的全称为全自动区分计算机和人类的公开图灵测试阅读全文