爬虫程序大魔王

2021年11月6日

摘要：

本期爬虫系列主要讲解爬虫采集完成数据之后，我们应该怎么存储，以及用什么样的方式存储数据。虽然在命令行里显示结果很有意思，但是随着数据不断增多，并且需要对数据分析时，将数据打印到命令行就不是办法了。为了可以远程使用大部分网络爬虫，你还需要把采集到的数据存储起来。本篇文章介绍的数据存储方式，绝大多数阅读全文

posted @ 2021-11-06 10:55 爬虫程序大魔王阅读(213) 评论(0) 推荐(0)

2021年10月19日

爬虫系列：数据采集

摘要：在上一期，主要讲解了：连接网站与解析 HTML 上一期只是一个简单的例子，获取了网站的一小部分内容，本期开始讲解需要获取网站的所有文章列表。在开始以前，还是要提醒大家：在网络爬虫的时候，你必须非常谨慎地考虑需要消耗多少网络流量，还要尽力思考能不能让采集目标的服务器负载更低一点。本次示例采集The 阅读全文

posted @ 2021-10-19 10:20 爬虫程序大魔王阅读(595) 评论(0) 推荐(0)

2021年10月12日

爬虫系列：连接网站与解析 HTML

摘要：

这篇文章是爬虫系列第三期，讲解使用 Python 连接到网站，并使用 BeautifulSoup 解析 HTML 页面。在 Python 中我们使用 requests 库来访问目标网站，使用 BeautifulSoup 对获取的内容进行解析。由于这两个库并不是 Python 标准库，因此需要单独安阅读全文

posted @ 2021-10-12 15:12 爬虫程序大魔王阅读(313) 评论(0) 推荐(0)

2021年10月7日

什么是 IP 地址 – 定义和解释

摘要： IP 地址定义 IP 地址是一个唯一地址，用于标识互联网或本地网络上的设备。IP 代表“互联网协议”，它是控制通过互联网或本地网络发送的数据格式的一组规则。本质上，IP 地址是允许在网络上的设备之间发送信息的标识符：它们包含位置信息，并使设备可进行通信。互联网需要一种区分不同计算机、路由器和网站的阅读全文

posted @ 2021-10-07 16:40 爬虫程序大魔王阅读(7935) 评论(0) 推荐(0)

2021年10月6日

如何通过 User-Agent 识别百度蜘蛛

摘要：如果有大量的百度蜘蛛抓取网站就需要注意了：有可能是其他爬虫伪造百度蜘蛛恶意抓取网站。如果遇到这种情况，这时候就需要查看日志来确定是不是真正的百度蜘蛛（baidu spider）。搜索引擎蜘蛛、用户访问、爬虫等访问都会留下 User-Agent。我们可以通过 User-Agent 大概判断是不是百阅读全文

posted @ 2021-10-06 11:51 爬虫程序大魔王阅读(1211) 评论(0) 推荐(0)

爬虫程序大魔王

公告