摘要: 爬虫系列:存储媒体文件 本期爬虫系列主要讲解爬虫采集完成数据之后,我们应该怎么存储,以及用什么样的方式存储数据。 虽然在命令行里显示结果很有意思,但是随着数据不断增多,并且需要对数据分析时,将数据打印到命令行就不是办法了。为了可以远程使用大部分网络爬虫,你还需要把采集到的数据存储起来。 本篇文章介绍的数据存储方式,绝大多数 阅读全文
posted @ 2021-11-06 10:55 爬虫程序大魔王 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 在上一期,主要讲解了:连接网站与解析 HTML 上一期只是一个简单的例子,获取了网站的一小部分内容,本期开始讲解需要获取网站的所有文章列表。 在开始以前,还是要提醒大家:在网络爬虫的时候,你必须非常谨慎地考虑需要消耗多少网络流量,还要尽力思考能不能让采集目标的服务器负载更低一点。 本次示例采集The 阅读全文
posted @ 2021-10-19 10:20 爬虫程序大魔王 阅读(570) 评论(0) 推荐(0) 编辑
摘要: 爬虫系列:连接网站与解析 HTML 这篇文章是爬虫系列第三期,讲解使用 Python 连接到网站,并使用 BeautifulSoup 解析 HTML 页面。 在 Python 中我们使用 requests 库来访问目标网站,使用 BeautifulSoup 对获取的内容进行解析。由于这两个库并不是 Python 标准库,因此需要单独安 阅读全文
posted @ 2021-10-12 15:12 爬虫程序大魔王 阅读(231) 评论(0) 推荐(0) 编辑
摘要: IP 地址定义 IP 地址是一个唯一地址,用于标识互联网或本地网络上的设备。IP 代表“互联网协议”,它是控制通过互联网或本地网络发送的数据格式的一组规则。 本质上,IP 地址是允许在网络上的设备之间发送信息的标识符:它们包含位置信息,并使设备可进行通信。互联网需要一种区分不同计算机、路由器和网站的 阅读全文
posted @ 2021-10-07 16:40 爬虫程序大魔王 阅读(7726) 评论(0) 推荐(0) 编辑
摘要: 如果有大量的百度蜘蛛抓取网站就需要注意了:有可能是其他爬虫伪造百度蜘蛛恶意抓取网站。 如果遇到这种情况,这时候就需要查看日志来确定是不是真正的百度蜘蛛(baidu spider)。搜索引擎蜘蛛、用户访问、爬虫等访问都会留下 User-Agent。 我们可以通过 User-Agent 大概判断是不是百 阅读全文
posted @ 2021-10-06 11:51 爬虫程序大魔王 阅读(924) 评论(0) 推荐(0) 编辑