python--通过ocr对数据可视化视频还原为csv，进行简单的分析

见github https://github.com/TouwaErioH/Machine-Learning/tree/master/video/video

题目描述：

source

https://www.youtube.com/channel/UCkWbqlDAyJh2n8DN5X6NZyg

https://www.youtube.com/channel/UCkWbqlDAyJh2n8DN5X6NZyg/videos

下载视频

Most Popular Websites 1996-2019

Most Popular Programming Languages 1965-2019

Most Popular Internet Browsers 1996-2019

Most Popular Mobile Phone Brands 1993-2019

Most Downloaded Android Messengers 2011-2019

Best-Selling Music Artists 1969-2019 来自于Data is Beautiful

要求：通过OCR、图像分析方法，还原成按年的静态表格，并分析一下相关数据变化的原因。如果能写程序动态播放这些表格就更好了。

按照如下方式提交一个*.csv文件。关于csv文件说明，可以上网查查，就是纯文本文件，文件扩展名改成了csv。
报告直接贴出csv文件内容。
最后提交的压缩包包括代码，报告，csv。

每一个时间段为一行，第一个元素是时间，之后是第一个的名字，对应的值（百分比，绝对值），然后第二个，第三个，有几个写几个。

time,No1_name,Value,No2_name, Value, No2_name, Value

这里选择做most popular programming language

另外，这种视频叫做数据可视化视频：

框架

https://github.com/Jannchie/Historical-ranking-data-visualization-based-on-d3.js

制作：准备好csv文件即可

https://www.zhihu.com/question/290568141/answer/829442104

OCR:

Tesseract

微软Azure 图像识别：https://azure.microsoft.com/z...

有道智云文字识别：http://aidemo.youdao.com/ocrdemo

阿里云图文识别：https://www.aliyun.com/produc...

腾讯OCR文字识别： https://cloud.tencent.com/pro...

一些参考：

python pytesseract psm 选项参数 https://blog.csdn.net/huitailangyz/article/details/80390090

PIL模块介绍 https://blog.csdn.net/zhangziju/article/details/79123275

tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解 http://www.sohu.com/a/162152933_787107

验证码/OCR图像识别预处理（去噪） https://blog.csdn.net/wsp_1138886114/article/details/82956297

Selenium&Pytesseract模拟登录+验证码识别 https://cloud.tencent.com/developer/article/1510012

python实现视频关键帧提取（基于帧间差分） https://blog.csdn.net/u011583927/article/details/84842915

python+opencv 实现图片和文字的分割 https://www.jb51.net/article/164611.htm

利用pandas读取Excel表格，用matplotlib.pyplot绘制直方图、折线图、饼图 https://www.cnblogs.com/xcuyms/p/11550606.html

Matplotlib绘图时x轴标签重叠的解决办法 https://www.jianshu.com/p/01ed72b2aeee

posted @ 2019-12-11 11:35 Erio 阅读(655) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

公告

昵称：Erio 园龄：6年5个月粉丝：115 关注：1

昵称： Erio
园龄： 6年5个月
粉丝： 115
关注： 1

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:基于OpenCV全景拼接（Python）SIFT/SURF
有完整代码文件吗
--linhuge
2. Re:Genius 二进制文件函数特征提取的复现
楼主好，想知道在windows系统中如何运行啊
--薄荷蓝莓
3. Re:使用Intellij IDEA的 FlowDroid 安装&测试
为什么我在soot-infoflow-cmd下面没有target文件呐
--zentery
4. Re:使用Intellij IDEA的 FlowDroid 安装&测试
mvn -DskipTests install，大佬这是要在Idea里面弄，还是要在命令行里面运行啊不太明白
--zentery
5. Re:使用Intellij IDEA的 FlowDroid 安装&测试
大佬我可以加你联系方式吗实在配置不好求帮忙
--zentery