爬虫-今日头条我的收藏-增量式导入到mongodb（三）

背景：

续接前文，当我们有了原始数据之后，自然会想如何利用这些数据。这些文件数据都是json格式，打开一个文本文件眼睛都要看花。所以想把这些数据导入到对应的数据库中，市面上几乎所有数据库都支持json格式存储。
随着时间的推移，用户不断有新的收藏，这样就不断产生新的收藏文件。需要不断的导入到数据库中。
sqlite 3.38版本支持json格式。
mongodb本身就是nosql数据库中做的很好的。之前在公司曾经考虑把json数据存储到mongodb，可惜方案被否（当时数据存储已经选择了mysql，且mysql支持json格式）。可以利用这个机会学习mongodb

思路：

先实现一个全量的数据导入mongodb。有多个原始文本文件记录了我的收藏信息，他们是倒序的。文本需要按照时间先后顺序依次导入。
再增量导入到mongodb。需要在mongodb中找到最后一条数据的id，根据这个id从多个文本文件中找到具体的位置，继续导入。需要考虑到断点在文本文件中（导入到一半，用户终止了程序），也有可能在文本文件头部（正常导入）。

实现：

代码实现在这里：https://github.com/pmh905001/myfavorite/blob/master/toutiao/import2mongodb.py

posted on 2023-12-20 16:11 pmh905001 阅读(17) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· 爬虫-今日头条我的收藏-增量式导入到Elastic Search（四）

· 爬虫-今日头条我的收藏-增量式（二）

· mongodb处理json数据很好

· python数据导入mongodb

· mysql的json增强意味着什么

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· winform 绘制太阳，地球，月球运作规律
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 上周热点回顾（3.3-3.9）
· 超详细：普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人

导航

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

公告

昵称： pmh905001
园龄： 10年5个月
粉丝： 0
关注： 3

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:PageHelper插件原理
@FangJinuo 好的，我会去看看的，谢谢！...
--pmh905001
2. Re:PageHelper插件原理
还在用PageHelper ？试试 github sqlhelper吧， 1）支持几乎所有的关系数据库，包括所有的国产数据库。 2）支持mybatis, mybatisplus, Spring-JDB...
--FangJinuo
3. Re:sikuli点击操作无效解决办法
100个赞！！！谢谢，帮我解决了困扰了我一晚上的 Issue
--coco1989