随笔分类 - python爬虫
摘要:
上一篇文章我们讲解了爬虫如何存储 CSV 文件,这篇文章,我们讲解如何将采集到的数据保存到 MySQL 数据库中。 MySQL 是目前最受欢迎的开源关系型数据库管理系统。一个开源项目具有如此之竞争力实在是令人意外,它的流行程度正在不断地接近两外两个闭源的商业数据库系统:微软的 SQL Server
阅读全文

摘要:
上一期:爬虫系列:存储媒体文件,讲解了如果通过爬虫下载媒体文件,以及下载媒体文件相关代码讲解。 本期将讲解如果将数据保存到 CSV 文件。 逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号)是存储表格数据常用文件格式。Microsof
阅读全文

摘要:查询 IP 地址以及百度爬虫 IP 我们如果要查询 IP 地址,互联网上有很多提供IP查询服务的网站,我这里总结和归纳如下: 国内提供 IP 查询的网站: IP138 IPIP,提供 IP 详细信息,同时有 Ping、traceroute 等工具 爬虫识别,提供 IP 查询与互联网爬虫查询服务,例如
阅读全文
摘要:
通过 IP 判断爬虫 如果你查看服务器日志,看到密密麻麻的 IP 地址,你一眼可以看出来那些 IP 是爬虫,那些 IP 是正常的爬虫,就像这样: 在这密密麻麻的日志里面,我们不仅要分辨出真正的爬虫 IP ,同时也要分辨出伪造的爬虫 IP,实属不易。 如果查看服务器日志,我们可以先通过 User-ag
阅读全文
