爬虫-今日头条我的收藏-增量式导入到Elastic Search(四)

背景:

继成功导入输入数据到mongodb,sqlite3之后,发现了一些问题,(写到此处觉得还是有些地方没有去深入的学习可能mongodb已经有解决方案了?):

  • 对关键字查询支持不友好,如果要在sql中拆分出不同的关键字sql会比较麻烦。
  • 另外排序不友好,如何把最匹配的记录放在最前面?

elasticsearch是对搜索专门支持的文档数据库,对于搜索功能支持很友好,于是尝试了一把增量式导入到ES的功能。

 

增量式导入:

  • 用户会不断有新的收藏信息进入到数据库。
  • 导入的过程中,可能会出现意外导致进行到一半不得不退出。下次导入的时候,需要知道最后导入的记录是哪条,然后接着继续导入。
  • 可以复用mongodb、sqlite3部分的代码,对代码做了重构。有一个基础类DBImporter可以帮做文件解析,断点定位的共享逻辑。

 

方案:

为了支持增量式导入,必须要遭到最后一条插入数据库的记录,sqlite3/mongodb轻易而,但是对于es来说就有问题,无法找到最后一条记录是哪条,需要有一个自增的字段来记录。通过这个最大的id来找到最后一条。

尝试了两个方案,都可以做到,最终选择方案2:

  1. 插入记录中自带_id由一个uuid作用的字符串变成一个自增的数字。这样的好处是不用新增加字段,坏处是破坏了_id字段原本的作用。
  2. 增加一个叫increasement_id字段。好处是克服了方案1的缺陷,相应的代码量要增加一点。

 

遇到的问题:

  • 一条一条的插入记录很慢的,需要批量插入。改成批量就很快了。
  • 插入记录的过程中,有可能有超时的异常,需要设置重试。
  • content字段有可能是字符串,也有可能是json对象。mapping已经自动识别为字符串类型,再插入json对象的时候就会异常退出。对于该问题的解决是把json转化成字符串。mongodb以及sqlite3没有遇到。需要在查询的时候,str需要被转化成json对象。

 

参考代码:https://gitee.com/pmh905001/myfavorite/blob/master/toutiao/esimporter.py

 

posted on   pmh905001  阅读(11)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示