03 2024 档案

爬虫-今日头条我的收藏-增量式下载网页内容(五)
摘要:背景: 原先我们下载的文件包含了收藏的元信息,包含标题,链接,文章摘要信息。这些基本的信息就足够支撑查询功能了。但还是存在如下问题: 从业务上来说,文章的原作者可能会删除文章,那么收藏的文章将再也找到相关信息了。所以我们需要把这些信息也要保存。 如果用户标题以及摘要信息不全面,重要信息在文章里面。那 阅读全文

posted @ 2024-03-29 23:56 pmh905001 阅读(35) 评论(0) 推荐(0) 编辑

爬虫-今日头条我的收藏-增量式导入到Elastic Search(四)
摘要:背景: 继成功导入输入数据到mongodb,sqlite3之后,发现了一些问题,(写到此处觉得还是有些地方没有去深入的学习可能mongodb已经有解决方案了?): 对关键字查询支持不友好,如果要在sql中拆分出不同的关键字sql会比较麻烦。 另外排序不友好,如何把最匹配的记录放在最前面? elast 阅读全文

posted @ 2024-03-29 23:14 pmh905001 阅读(11) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示