摘要: 反爬虫的重点:识别爬虫 我们在网站运营的时候,最大的问题就是:我们自己花费几个小时甚至是几天辛辛苦苦创作作的内容,被爬虫只需要 1s 就抓去了。为了保卫我们创作的成果,也为了网站的稳定运行,我们需要对爬虫说:No,我们在反爬虫的过程中最重要的就是如何识别爬虫。 为了识别识别爬虫,常用的有以下几个方法: 真人检测 所谓的真人 阅读全文
posted @ 2022-07-05 16:48 爬虫程序大魔王 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 你需要知道的 10 大互联网爬虫 机器人和僵尸网络通常与网络犯罪分子窃取数据、身份、信用卡号码和更糟糕的情况有关。但是,机器人也可以有好的目的。将好的机器人与坏的机器人区分开来,也可以在保护你公司的网站和确保你的网站获得应有的互联网流量方面发挥很大作用。 大多数好的机器人基本上都是世界上最大的网站派出的爬虫,为其搜索引擎和社交媒体平 阅读全文
posted @ 2022-07-04 16:18 爬虫程序大魔王 阅读(718) 评论(0) 推荐(0) 编辑
摘要: 爬虫常说的君子协议是什么? 我们常常说 robots.txt 协议防君子不防小人。robots.txt 协议防什么样的君子,又防不了什么样的小人呢?就听我给你一一道来。 爬虫常说的君子协议是什么 首先我们需要了解爬虫常说的君子协议是什么,也就是什么是 robots.txt 协议,下面是关于 robots.txt 协议的描述: 阅读全文
posted @ 2022-07-04 16:11 爬虫程序大魔王 阅读(471) 评论(0) 推荐(0) 编辑
摘要: 可在线接收验证短信的网站 数据信息安全于我们每个人都有着重要的意义,还记得你常收到的陌生推销或骚扰电话吗? 出于论坛资源下载、数据服务试用等现实临时需要,我们有时候不得不注册使用一些可能并不会经常使用的网站或平台服务,手机号码也不可避免的被要求绑定注册,久而久之我们的个人信息被拿捏存储在别人的数据库中,而对于这些被交付的私人 阅读全文
posted @ 2022-06-30 16:43 爬虫程序大魔王 阅读(2794) 评论(0) 推荐(0) 编辑
摘要: 什么是网络爬虫? 什么是网络爬虫 网络爬虫是一种在 Internet 上运行自动化任务的软件应用程序。与人类互联网活动相比,网络爬虫运行的任务通常很简单,并且执行速度要快得多。 有些机器人是合法的——例如,Googlebot 是 Google 用来抓取互联网并将其编入索引以进行搜索的应用程序。其他机器人是恶意的——例 阅读全文
posted @ 2022-06-30 16:06 爬虫程序大魔王 阅读(649) 评论(0) 推荐(0) 编辑
摘要: baidu spider IP 查询 baidu spider 是百度搜索引擎的爬虫代理。 有朋友经常问这个 IP 是不是 baidu spider 的 IP 地址?而对于只有一个 IP 的情况,我们应该如何去判断是不是 baidu spider 的 IP 地址呢? 我们可以使用爬虫识别这个工具网站来查询具体的 IP 是 baidu s 阅读全文
posted @ 2022-06-16 15:37 爬虫程序大魔王 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 2022年推荐免费在线接收短信平台(国内、国外) 现代社会中大多数人容易忘记密码,因此,为了方便,各大网站或者APP就相继出现以手机号码进行短信验证来注册和登录等操作。但此时,大多个人手机号码都已经是实名认证的,就非常怕存在个人信息泄露的情况。近几年网络平台用户数据泄露事件层出不穷,勿论一般平台,甚至一些全球知名企业也曾被曝出用户数据泄露问题,那基 阅读全文
posted @ 2022-06-10 15:47 爬虫程序大魔王 阅读(73506) 评论(6) 推荐(0) 编辑
摘要: 爬虫系列:爬虫验证码识别 读取验证码与训练 Tesseract 在上一篇文章中我们介绍了使用 Tesseract 如何识别格式规范的文字,在这篇文章中我们将详细介绍使用 Tesseract 如何识别图像验证码。 虽然大多数人对单词“CAPTCHA”都很熟悉,但是很少人知道它的具体含义:全自动区分计算机和人类的图灵测试(Com 阅读全文
posted @ 2022-04-29 17:29 爬虫程序大魔王 阅读(729) 评论(0) 推荐(0) 编辑
摘要: 爬虫系列:在 Python 中用 Selenium 执行 Javascript Selenium 是一个强大的网络数据采集工具,其最初是为网站自动化测试而开发的。近几年,它还被广泛用于获取精确的网站快照,因为它们可以直接运行在浏览器上。Selenium 可以让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。 Selenium 自己不带浏览器,它 阅读全文
posted @ 2022-04-08 17:26 爬虫程序大魔王 阅读(477) 评论(0) 推荐(0) 编辑
摘要: 爬虫系列:穿越网页表单与登录窗口进行采集(二) 上一期我们讲解了 Python Requests 库、提交一个基本表单、HTML 相关控件等内容。 本篇文章我们接着上一期文章介绍通过 Python Requests 提交文件和图像、处理登录 cookie、HTTP 基本接入认证以及其他表单相关问题。 提交文件和图像 虽然上传文件在网络上很普遍,但 阅读全文
posted @ 2022-02-23 15:22 爬虫程序大魔王 阅读(118) 评论(0) 推荐(0) 编辑