爬虫-今日头条我的收藏-增量式导入到mongodb(三)

背景:

  • 续接前文,当我们有了原始数据之后,自然会想如何利用这些数据。这些文件数据都是json格式,打开一个文本文件眼睛都要看花。所以想把这些数据导入到对应的数据库中,市面上几乎所有数据库都支持json格式存储。
  • 随着时间的推移,用户不断有新的收藏,这样就不断产生新的收藏文件。需要不断的导入到数据库中。
  • sqlite 3.38版本支持json格式。
  • mongodb本身就是nosql数据库中做的很好的。之前在公司曾经考虑把json数据存储到mongodb,可惜方案被否(当时数据存储已经选择了mysql,且mysql支持json格式)。可以利用这个机会学习mongodb

 

思路:

  • 先实现一个全量的数据导入mongodb。有多个原始文本文件记录了我的收藏信息,他们是倒序的。文本需要按照时间先后顺序依次导入。
  • 再增量导入到mongodb。需要在mongodb中找到最后一条数据的id,根据这个id从多个文本文件中找到具体的位置,继续导入。需要考虑到断点在文本文件中(导入到一半,用户终止了程序),也有可能在文本文件头部(正常导入)。

 

实现:

  • 代码实现在这里:https://github.com/pmh905001/myfavorite/blob/master/toutiao/import2mongodb.py

 

posted on   pmh905001  阅读(17)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示