摘要: 爬虫系列:穿越网页表单与登录窗口进行采集 上一期我们讲解了数据标准化相关内容,首先对单词出现的频率进行排序,之后对一些大小写进行转换,缩小 2-gram 序列的重复内容。 当我们真正迈出网络数据采集基础之门的时候,遇到的第一个问题可能是:“我怎么获取登录窗口背后的信息呢?”今天,网络正在朝着页面交互、社交媒体、用户产生内容的趋势不断地演进。 阅读全文
posted @ 2022-01-12 10:47 爬虫程序大魔王 阅读(652) 评论(0) 推荐(1) 编辑
摘要: 爬虫系列:数据标准化 上一期我们介绍了使用 Python 数据清洗的相关方法,本篇文章我们介绍数据标准化的相关方法。 每个人都会遇到一些样式设计不够人性化的网页,比如“请输入你的电话号码,号码格式为 xxx-xxxx-xxxx”。 作为一名优秀的程序员,你可能会问:”为什么不自动对输入的数据进行清洗,去掉非数字内容,然后 阅读全文
posted @ 2022-01-12 10:18 爬虫程序大魔王 阅读(91) 评论(0) 推荐(0) 编辑
摘要: 爬虫系列:数据清洗 上一期我们讲解了使用 Python 读取 CSV、PDF、Word 文档相关内容。 前面我们已经介绍了网络数据采集的一些基础知识,现在我们将进入高级数据采集部分。到目前为止,我们创建的网络爬虫都不是特别给力,如果网络服务器不能立即提供样式规范的信息,爬虫就不能采集正确的数据。如果爬虫只能采集那些显而 阅读全文
posted @ 2021-12-28 16:09 爬虫程序大魔王 阅读(771) 评论(0) 推荐(0) 编辑
摘要: 爬虫系列:读取 CSV、PDF、Word 文档 上一期我们讲解了使用 Python 读取文档编码的相关问题,本期我们讲解使用 Python 处理 CSV、PDF、Word 文档相关内容。 CSV 我们进行网页采集的时候,你可能会遇到 CSV 文件,也可能项目需要将数据保存到 CSV 文件。Python 有一个超赞的标准库可以读写 CSV 文件。虽 阅读全文
posted @ 2021-12-21 16:33 爬虫程序大魔王 阅读(364) 评论(0) 推荐(0) 编辑
摘要: 爬虫系列:读取文档 上一篇文章我们介绍了如何通过 MySQL 存储 Python 爬虫采集的内容,以及使用Python 与 MySQL 交互,这篇文章我们介绍如何通过 Python 读取文档。 虽然互联网在20世纪60年代末期就已经以不同的形式出现,但是 HTML 直到1992年才问世。在此之前,互联网上基本就是收发邮 阅读全文
posted @ 2021-12-21 15:30 爬虫程序大魔王 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 爬虫系列:使用 MySQL 存储数据 上一篇文章我们讲解了爬虫如何存储 CSV 文件,这篇文章,我们讲解如何将采集到的数据保存到 MySQL 数据库中。 MySQL 是目前最受欢迎的开源关系型数据库管理系统。一个开源项目具有如此之竞争力实在是令人意外,它的流行程度正在不断地接近两外两个闭源的商业数据库系统:微软的 SQL Server 阅读全文
posted @ 2021-12-09 16:19 爬虫程序大魔王 阅读(675) 评论(1) 推荐(0) 编辑
摘要: 爬虫系列:存储 CSV 文件 上一期:爬虫系列:存储媒体文件,讲解了如果通过爬虫下载媒体文件,以及下载媒体文件相关代码讲解。 本期将讲解如果将数据保存到 CSV 文件。 逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号)是存储表格数据常用文件格式。Microsof 阅读全文
posted @ 2021-12-09 15:52 爬虫程序大魔王 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 查询 IP 地址以及百度爬虫 IP 我们如果要查询 IP 地址,互联网上有很多提供IP查询服务的网站,我这里总结和归纳如下: 国内提供 IP 查询的网站: IP138 IPIP,提供 IP 详细信息,同时有 Ping、traceroute 等工具 爬虫识别,提供 IP 查询与互联网爬虫查询服务,例如 阅读全文
posted @ 2021-12-06 16:20 爬虫程序大魔王 阅读(883) 评论(0) 推荐(0) 编辑
摘要: 在互联网的地址架构中,专用网络是指遵守RFC 1918(IPV4)和RFC 4193(IPV6)规范,使用专用IP地址空间的网络。私有IP无法直接连接互联网,需要使用网络地址转换(Network Address Translator,NAT)或者代理服务器 (proxy server)来实现。与公网 阅读全文
posted @ 2021-12-04 14:31 爬虫程序大魔王 阅读(739) 评论(0) 推荐(1) 编辑
摘要: 如果通过 IP 判断是否是爬虫 通过 IP 判断爬虫 如果你查看服务器日志,看到密密麻麻的 IP 地址,你一眼可以看出来那些 IP 是爬虫,那些 IP 是正常的爬虫,就像这样: 在这密密麻麻的日志里面,我们不仅要分辨出真正的爬虫 IP ,同时也要分辨出伪造的爬虫 IP,实属不易。 如果查看服务器日志,我们可以先通过 User-ag 阅读全文
posted @ 2021-11-09 14:36 爬虫程序大魔王 阅读(352) 评论(0) 推荐(0) 编辑