随笔分类 - python爬虫
摘要:
我们如何在 MAC 电脑上查询自己的 IP 地址,以及查找 IP 地址的归属地呢? 下面是一些详细的步骤。 Mac 查找自己的 IP 地址 我们在 Mac 系统桌面上,点击系统偏好设置 进入系统偏好之后,我们选择网络 在网络界面我们选择以太网,您的 IP 地址会显示在右侧,如下图所示: 通过终端查找
阅读全文

摘要:
我们在检查网站日志的时候,经常会遇到各种各样的爬虫。有的是正常的爬虫,例如:搜索引擎爬虫(百度搜索引擎爬虫、Google 搜索引擎爬虫,Bing 搜索引擎爬虫、YandexBot 等),还有一些各种功能的爬虫,可以在这里查看:list crawlers。 但是,互联网上并不是所有的爬虫都是有益的,有
阅读全文

摘要:
有用户一直好奇爬虫识别网站上的爬虫数据是如何整理的,今天就更大家来揭秘爬虫数据是如何收集整理的。 通过查询 IP 地址来获得 rDNS 方式 我们可以通过爬虫的 IP 地址来反向查询 rDNS,例如:我们通过反向 DNS 查找工具查找此 IP: 116.179.32.160 ,rDNS 为:baid
阅读全文

摘要:
今天看到水墨云这个云服务厂商,才开始是做 CDN 的,之后开始做 vps 业务。 我登陆官方网站,查看了它家的产品大部分是年付,且不支持退款,于是我打消了每一台服务器测试的念头,这篇文章只能从它公开的测试 IP 入手看看水墨云这家的 vps 怎么样。 但是我发工单希望给几个测试 IP 地址,工单回复
阅读全文

摘要:
我们经常会受到大量的 YandexBot 访问,我们知道 YandexBot 是 Yandex 的搜索引擎的爬虫。 大量的 YandexBot 访问,不仅给服务器造成了非常大的压力,同时也会使正常访客访问网站变慢,影响体验。 基于以上原因,我们不得不限制 YandexBot 的访问,但是需要注意的一
阅读全文

摘要:
robots.txt 是一个包含网站索引参数的文本文件,供搜索引擎的机器人使用。 Yandex 支持具有高级功能的 Robots Exclusion 协议。 当抓取一个网站时,Yandex 机器人会加载 robots.txt 文件。如果对该文件的最新请求显示某个网站页面或部分被禁止,机器人就不会索引
阅读全文

摘要:
爬虫识别网站收集和整理了 yandexbot 所有的 user-agent,方便大家识别 yandexbot。 yandexbot user-agent 列表 Mozilla/5.0 (compatible; YandexAccessibilityBot/3.0; +http://yandex.co
阅读全文

摘要:
YandexBot 是 Yandex 的搜索引擎的爬虫。Yandex 是一家俄罗斯互联网公司,在俄罗斯经营最大的搜索引擎,在该国拥有约 60% 的市场份额。截至 2012 年 4 月,Yandex 排名全球第五大搜索引擎,每天有超过1.5 亿次搜索,访客超过 2550 万。 经常有网友问我如何屏蔽
阅读全文

摘要:
Rogerbot 是 Moz Pro Campaign 网站审核的 Moz 爬虫。它与 Dotbot 不同,Dotbot 是为链接索引提供支持的网络爬虫。Rogerbot 访问您网站的代码以将报告发送回您的 Moz Pro Campaign。这可以帮助您了解您的网站并教您如何解决可能影响您的排名的问
阅读全文

摘要:
我们在网站运营的时候,最大的问题就是:我们自己花费几个小时甚至是几天辛辛苦苦创作作的内容,被爬虫只需要 1s 就抓去了。为了保卫我们创作的成果,也为了网站的稳定运行,我们需要对爬虫说:No,我们在反爬虫的过程中最重要的就是如何识别爬虫。 为了识别识别爬虫,常用的有以下几个方法: 真人检测 所谓的真人
阅读全文

摘要:
机器人和僵尸网络通常与网络犯罪分子窃取数据、身份、信用卡号码和更糟糕的情况有关。但是,机器人也可以有好的目的。将好的机器人与坏的机器人区分开来,也可以在保护你公司的网站和确保你的网站获得应有的互联网流量方面发挥很大作用。 大多数好的机器人基本上都是世界上最大的网站派出的爬虫,为其搜索引擎和社交媒体平
阅读全文

摘要:
我们常常说 robots.txt 协议防君子不防小人。robots.txt 协议防什么样的君子,又防不了什么样的小人呢?就听我给你一一道来。 爬虫常说的君子协议是什么 首先我们需要了解爬虫常说的君子协议是什么,也就是什么是 robots.txt 协议,下面是关于 robots.txt 协议的描述:
阅读全文

摘要:
什么是网络爬虫 网络爬虫是一种在 Internet 上运行自动化任务的软件应用程序。与人类互联网活动相比,网络爬虫运行的任务通常很简单,并且执行速度要快得多。 有些机器人是合法的——例如,Googlebot 是 Google 用来抓取互联网并将其编入索引以进行搜索的应用程序。其他机器人是恶意的——例
阅读全文

摘要:
经常有小伙伴需要将互联网上的数据保存的本地,而又不想自己一篇一篇的复制,我们第一个想到的就是爬虫,爬虫可以说是组成了我们精彩的互联网世界。
阅读全文

摘要:
读取验证码与训练 Tesseract 在上一篇文章中我们介绍了使用 Tesseract 如何识别格式规范的文字,在这篇文章中我们将详细介绍使用 Tesseract 如何识别图像验证码。 虽然大多数人对单词“CAPTCHA”都很熟悉,但是很少人知道它的具体含义:全自动区分计算机和人类的图灵测试(Com
阅读全文

摘要:
Selenium 是一个强大的网络数据采集工具,其最初是为网站自动化测试而开发的。近几年,它还被广泛用于获取精确的网站快照,因为它们可以直接运行在浏览器上。Selenium 可以让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。 Selenium 自己不带浏览器,它
阅读全文

摘要:
上一期我们讲解了 Python Requests 库、提交一个基本表单、HTML 相关控件等内容。 本篇文章我们接着上一期文章介绍通过 Python Requests 提交文件和图像、处理登录 cookie、HTTP 基本接入认证以及其他表单相关问题。 提交文件和图像 虽然上传文件在网络上很普遍,但
阅读全文

摘要:
上一期我们讲解了数据标准化相关内容,首先对单词出现的频率进行排序,之后对一些大小写进行转换,缩小 2-gram 序列的重复内容。 当我们真正迈出网络数据采集基础之门的时候,遇到的第一个问题可能是:“我怎么获取登录窗口背后的信息呢?”今天,网络正在朝着页面交互、社交媒体、用户产生内容的趋势不断地演进。
阅读全文

摘要:
上一期我们介绍了使用 Python 数据清洗的相关方法,本篇文章我们介绍数据标准化的相关方法。 每个人都会遇到一些样式设计不够人性化的网页,比如“请输入你的电话号码,号码格式为 xxx-xxxx-xxxx”。 作为一名优秀的程序员,你可能会问:”为什么不自动对输入的数据进行清洗,去掉非数字内容,然后
阅读全文

摘要:
上一期我们讲解了使用 Python 读取 CSV、PDF、Word 文档相关内容。 前面我们已经介绍了网络数据采集的一些基础知识,现在我们将进入高级数据采集部分。到目前为止,我们创建的网络爬虫都不是特别给力,如果网络服务器不能立即提供样式规范的信息,爬虫就不能采集正确的数据。如果爬虫只能采集那些显而
阅读全文
