2023年12月19日

爬虫-今日头条我的收藏-增量式(二)

摘要: 背景: 能够全量爬取今日头条我的收藏内容之后,新收藏的内容依然希望能够保存到新文件中。 思路: 每次都全量爬取数据太耗时,增量式爬取可以节省时间。但逻辑上显然要复杂一些。关键的问题是要找到断点的位置。 取消收藏的影响:爬虫旧文件用户收藏的链接有可能被取消收藏。所以在断点位置的判断上不能只取一条数据的 阅读全文

posted @ 2023-12-19 00:15 pmh905001 阅读(33) 评论(0) 推荐(0) 编辑

导航