12 2023 档案

爬虫-今日头条我的收藏-增量式导入到mongodb(三)
摘要:背景: 续接前文,当我们有了原始数据之后,自然会想如何利用这些数据。这些文件数据都是json格式,打开一个文本文件眼睛都要看花。所以想把这些数据导入到对应的数据库中,市面上几乎所有数据库都支持json格式存储。 随着时间的推移,用户不断有新的收藏,这样就不断产生新的收藏文件。需要不断的导入到数据库中 阅读全文

posted @ 2023-12-20 16:11 pmh905001 阅读(17) 评论(0) 推荐(0) 编辑

爬虫-今日头条我的收藏-增量式(二)
摘要:背景: 能够全量爬取今日头条我的收藏内容之后,新收藏的内容依然希望能够保存到新文件中。 思路: 每次都全量爬取数据太耗时,增量式爬取可以节省时间。但逻辑上显然要复杂一些。关键的问题是要找到断点的位置。 取消收藏的影响:爬虫旧文件用户收藏的链接有可能被取消收藏。所以在断点位置的判断上不能只取一条数据的 阅读全文

posted @ 2023-12-19 00:15 pmh905001 阅读(47) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示