摘要:
一 为什么要用远程服务器 两个目的:对更大计算能力和灵活性的需求 和 对可变IP地址的需求 1 避免IP地址被封杀 建立网络爬虫的第一原则是:所有的信息都可以伪造。你可以用非本人的邮箱发送邮件,通过命令行自动化鼠标的行为。但有一件事情是不能作假的,那就是你的IP地址。 阻止网站被采集的注意力主要集中 阅读全文
摘要:
一 隐含输入字段值 字段的值对浏览器可见,但是对用户不可见。隐含字段主要用于阻止爬虫自动提交表单。 用隐含字段阻止网络数据采集的方式主要有两种: 第一种是表单页面上的一个字段可以用服务器生成的随机变量表示。如果提交时这个值不在表单处理页面上,服务器就有理由认为这个提交不是从原始表单页面上提交的,而是 阅读全文
摘要:
做法 1: 可以一步一步cookies,毫无疑问,这非常麻烦。 做法 2 : requests库自带的session模块完美解决这个问题。 阅读全文
摘要:
https://blog.csdn.net/column/details/pythonpil.html 示例: 输出: a.jpg ag.jpg b.jpg 阅读全文
摘要:
首先,先安装好Tesseract软件,pytesseract模块 问题 1 :FileNotFoundError: [WinError 2] 系统找不到指定的文件。 加上这行代码 方法 1 image_to_string() 输出: 阅读全文
摘要:
验证码(CAPTCHA)的全称为 全自动区分计算机和人类的公开图灵测试 阅读全文
摘要:
当表单使用POST方法时,表单数据提交到服务器端之前有两种编码类型可供选择。默认编码类型为 application/x-www-form-urlencoded,此时所有非字母数字类型的字符都需要转换为十六进制的ASCII值,但是如果表单中包含大量非字母数字类型的字符时,这种编码类型的效率就会非常低, 阅读全文
摘要:
1 __class__ instance.__class__ The class to which a class instance belongs 输出: 2 __name__ definition.__name__ The name of the class, function, method, 阅读全文