2024年3月29日

爬虫-今日头条我的收藏-增量式下载网页内容(五)

摘要: 背景: 原先我们下载的文件包含了收藏的元信息,包含标题,链接,文章摘要信息。这些基本的信息就足够支撑查询功能了。但还是存在如下问题: 从业务上来说,文章的原作者可能会删除文章,那么收藏的文章将再也找到相关信息了。所以我们需要把这些信息也要保存。 如果用户标题以及摘要信息不全面,重要信息在文章里面。那 阅读全文

posted @ 2024-03-29 23:56 pmh905001 阅读(14) 评论(0) 推荐(0) 编辑

爬虫-今日头条我的收藏-增量式导入到Elastic Search(四)

摘要: 背景: 继成功导入输入数据到mongodb,sqlite3之后,发现了一些问题,(写到此处觉得还是有些地方没有去深入的学习可能mongodb已经有解决方案了?): 对关键字查询支持不友好,如果要在sql中拆分出不同的关键字sql会比较麻烦。 另外排序不友好,如何把最匹配的记录放在最前面? elast 阅读全文

posted @ 2024-03-29 23:14 pmh905001 阅读(7) 评论(0) 推荐(0) 编辑

导航