11 2021 档案
摘要:
通过 IP 判断爬虫 如果你查看服务器日志,看到密密麻麻的 IP 地址,你一眼可以看出来那些 IP 是爬虫,那些 IP 是正常的爬虫,就像这样: 在这密密麻麻的日志里面,我们不仅要分辨出真正的爬虫 IP ,同时也要分辨出伪造的爬虫 IP,实属不易。 如果查看服务器日志,我们可以先通过 User-ag
阅读全文

摘要:
本期爬虫系列主要讲解爬虫采集完成数据之后,我们应该怎么存储,以及用什么样的方式存储数据。 虽然在命令行里显示结果很有意思,但是随着数据不断增多,并且需要对数据分析时,将数据打印到命令行就不是办法了。为了可以远程使用大部分网络爬虫,你还需要把采集到的数据存储起来。 本篇文章介绍的数据存储方式,绝大多数
阅读全文
