上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 34 下一页
摘要: 一 为什么要用远程服务器 两个目的:对更大计算能力和灵活性的需求 和 对可变IP地址的需求 1 避免IP地址被封杀 建立网络爬虫的第一原则是:所有的信息都可以伪造。你可以用非本人的邮箱发送邮件,通过命令行自动化鼠标的行为。但有一件事情是不能作假的,那就是你的IP地址。 阻止网站被采集的注意力主要集中 阅读全文
posted @ 2018-04-19 18:23 骑者赶路 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 一 隐含输入字段值 字段的值对浏览器可见,但是对用户不可见。隐含字段主要用于阻止爬虫自动提交表单。 用隐含字段阻止网络数据采集的方式主要有两种: 第一种是表单页面上的一个字段可以用服务器生成的随机变量表示。如果提交时这个值不在表单处理页面上,服务器就有理由认为这个提交不是从原始表单页面上提交的,而是 阅读全文
posted @ 2018-04-19 17:44 骑者赶路 阅读(437) 评论(0) 推荐(0) 编辑
摘要: 做法 1: 可以一步一步cookies,毫无疑问,这非常麻烦。 做法 2 : requests库自带的session模块完美解决这个问题。 阅读全文
posted @ 2018-04-19 16:48 骑者赶路 阅读(104) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/column/details/pythonpil.html 示例: 输出: a.jpg ag.jpg b.jpg 阅读全文
posted @ 2018-04-19 15:35 骑者赶路 阅读(189) 评论(0) 推荐(0) 编辑
摘要: 首先,先安装好Tesseract软件,pytesseract模块 问题 1 :FileNotFoundError: [WinError 2] 系统找不到指定的文件。 加上这行代码 方法 1 image_to_string() 输出: 阅读全文
posted @ 2018-04-19 15:00 骑者赶路 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 验证码(CAPTCHA)的全称为 全自动区分计算机和人类的公开图灵测试 阅读全文
posted @ 2018-04-19 14:50 骑者赶路 阅读(84) 评论(0) 推荐(0) 编辑
摘要: 当表单使用POST方法时,表单数据提交到服务器端之前有两种编码类型可供选择。默认编码类型为 application/x-www-form-urlencoded,此时所有非字母数字类型的字符都需要转换为十六进制的ASCII值,但是如果表单中包含大量非字母数字类型的字符时,这种编码类型的效率就会非常低, 阅读全文
posted @ 2018-04-19 13:48 骑者赶路 阅读(242) 评论(0) 推荐(0) 编辑
摘要: 1 __class__ instance.__class__ The class to which a class instance belongs 输出: 2 __name__ definition.__name__ The name of the class, function, method, 阅读全文
posted @ 2018-04-19 13:30 骑者赶路 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 要爬取的网址是:http://quotes.toscrape.com/ 磕磕绊绊的写完了 spiders Pipeline 收获: 1 这里都是类,完全可以定义__init__,完全可以把一些数据 添加到其静态属性。 阅读全文
posted @ 2018-04-18 23:58 骑者赶路 阅读(111) 评论(0) 推荐(0) 编辑
摘要: 官方文档:https://docs.scrapy.org/en/latest/topics/item-pipeline.html 激活pipeline,需要在settings里配置,然而这里配置的pipeline会作用于所有的spider。加入项目中有很多spider在运行。item pipelin 阅读全文
posted @ 2018-04-18 19:27 骑者赶路 阅读(338) 评论(0) 推荐(0) 编辑
上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 34 下一页