爬虫-今日头条我的收藏-增量式下载网页内容(五)
摘要:
背景: 原先我们下载的文件包含了收藏的元信息,包含标题,链接,文章摘要信息。这些基本的信息就足够支撑查询功能了。但还是存在如下问题: 从业务上来说,文章的原作者可能会删除文章,那么收藏的文章将再也找到相关信息了。所以我们需要把这些信息也要保存。 如果用户标题以及摘要信息不全面,重要信息在文章里面。那 阅读全文
posted @ 2024-03-29 23:56 pmh905001 阅读(35) 评论(0) 推荐(0) 编辑