随笔分类 - 爬虫
摘要:Day1 图书推荐 图解HTTP,日本人写的 爬虫用处 诸葛 工商大数据 分类 通用爬虫 聚焦爬虫 https://www.jd.com/robots.txt Day2 User-Agent池 Ip代理池 Day4 一个用户在不同的地方,不同的浏览器不停的登录,很有可能被封。面试遇到过。 解决方法:
阅读全文
摘要:会用到的点 模块 1 hashlib模块--加密。 update(string.encode('utf-8')) m.hexdigest() 2 requests模块 https://blog.csdn.net/shanzhizi/article/details/50903748 r = reque
阅读全文
摘要:一 设计抓取策略 1 深度优先 2 广度优先 3 部分的PageRank策略 4 OPIC策略 5 大站优先策略 https://blog.csdn.net/a575553272/article/details/80265182 https://blog.csdn.net/Bone_ACE/arti
阅读全文
摘要:问题 一: 在pymongo中使用find是得到1个游标对象的,如果你想实现MongoDB shell中find操作,例如: 在pymongo中需要使用find_one方法而不是find方法: 所以在pymongo中,如果判断一条数据是否存在。这样写是错误的。因为find返回的是游标,条件判断永远成
阅读全文
摘要:一 学习目的以及需求 抓取某个网站或者某个应用的内容,提取有用的价值 二 实现手段 模拟用户在浏览器或者应用(app)上的操作,实现自动化的程序 三 爬虫应用场景(利用爬虫能做什么?) 1 抢票神器 2 投票刷票神器 3 咨询报告 拉勾网招聘职位数据分析报告 2016年中国外卖020行业发展报告 2
阅读全文
摘要:一 首先想到的是将selenium 写在下载中间件的process_request中。如以下代码。 middleware.py 但这有一个问题是,打开的selenium并不能关闭 二 可以考虑将driver放在spider中。 好处有以下几点: 1 并不是每个spider 都是需要用selenium
阅读全文
摘要:https://github.com/factsbenchmarks/Weibo 学到的东西。 1 习惯用logger,而不是用print 2 习惯用正则表达式 这是在pipeline清理数据时用到的 3 time模块都快忘干净了吧 4 eval的妙用,还可以这样用! 注释的是lowB代码。如果字段
阅读全文
摘要:Parse命令,Scrapy shell,logging 一 Parse命令 检查spider输出的最基本方法是使用Parse命令。这能让你在函数层上检查spider哥哥部分的效果,其十分灵活并且已用。不过不能在代码中测试。 https://docs.scrapy.org/en/latest/top
阅读全文
摘要:一 scrapy添加代理 1 内置代理:os.environ。 固定格式,不推荐 2 自定义代理:通过中间件实现
阅读全文
摘要:一 总结 页面是异步加载,页面滑动的过程中,每张图片的url才显示。所以推荐selenium。同时需要selenium执行js代买,实现页面滚动的效果。就是window.scrollTo()方法。 在用scrapy框架中,并不是所有的request都是需要经过用selenium。经过selenium
阅读全文
摘要:这个实例还是值得多次看的 其流程图如下,还是有一点绕的。 总结: 1 Requst(rul=' xxx ',callback= ' '),仅仅发起 某个网页 的访问请求,没啥了。剩下的交给回调函数 2 parse_()。对 某个页面 经过下载后的 数据 进行处理,包括逻辑判断,有可能比较复杂,提取想
阅读全文
摘要:官方文档:https://docs.scrapy.org/en/latest/topics/downloader-middleware.html 一 write your own downloader middleware process_request(request,spider) return
阅读全文
摘要:一 为什么要用远程服务器 两个目的:对更大计算能力和灵活性的需求 和 对可变IP地址的需求 1 避免IP地址被封杀 建立网络爬虫的第一原则是:所有的信息都可以伪造。你可以用非本人的邮箱发送邮件,通过命令行自动化鼠标的行为。但有一件事情是不能作假的,那就是你的IP地址。 阻止网站被采集的注意力主要集中
阅读全文
摘要:一 隐含输入字段值 字段的值对浏览器可见,但是对用户不可见。隐含字段主要用于阻止爬虫自动提交表单。 用隐含字段阻止网络数据采集的方式主要有两种: 第一种是表单页面上的一个字段可以用服务器生成的随机变量表示。如果提交时这个值不在表单处理页面上,服务器就有理由认为这个提交不是从原始表单页面上提交的,而是
阅读全文
摘要:做法 1: 可以一步一步cookies,毫无疑问,这非常麻烦。 做法 2 : requests库自带的session模块完美解决这个问题。
阅读全文
摘要:https://blog.csdn.net/column/details/pythonpil.html 示例: 输出: a.jpg ag.jpg b.jpg
阅读全文
摘要:首先,先安装好Tesseract软件,pytesseract模块 问题 1 :FileNotFoundError: [WinError 2] 系统找不到指定的文件。 加上这行代码 方法 1 image_to_string() 输出:
阅读全文
摘要:验证码(CAPTCHA)的全称为 全自动区分计算机和人类的公开图灵测试
阅读全文
摘要:要爬取的网址是:http://quotes.toscrape.com/ 磕磕绊绊的写完了 spiders Pipeline 收获: 1 这里都是类,完全可以定义__init__,完全可以把一些数据 添加到其静态属性。
阅读全文