python--通过ocr对数据可视化视频还原为csv,进行简单的分析
见github https://github.com/TouwaErioH/Machine-Learning/tree/master/video/video
题目描述:
source
https://www.youtube.com/channel/UCkWbqlDAyJh2n8DN5X6NZyg
https://www.youtube.com/channel/UCkWbqlDAyJh2n8DN5X6NZyg/videos
下载视频
Most Popular Websites 1996-2019
Most Popular Programming Languages 1965-2019
Most Popular Internet Browsers 1996-2019
Most Popular Mobile Phone Brands 1993-2019
Most Downloaded Android Messengers 2011-2019
Best-Selling Music Artists 1969-2019 来自于Data is Beautiful
要求: 通过OCR、图像分析方法,还原成按年的静态表格,并分析一下相关数据变化的原因。如果能写程序动态播放这些表格就更好了。
按照如下方式提交一个*.csv文件。关于csv文件说明,可以上网查查,就是纯文本文件,文件扩展名改成了csv。
报告直接贴出csv文件内容。
最后提交的压缩包包括代码,报告,csv。
每一个时间段为一行,第一个元素是时间,之后是第一个的名字,对应的值(百分比,绝对值),然后第二个,第三个,有几个写几个。
time,No1_name,Value,No2_name, Value, No2_name, Value
这里选择做most popular programming language
另外,这种视频叫做数据可视化视频:
框架
https://github.com/Jannchie/Historical-ranking-data-visualization-based-on-d3.js
制作:准备好csv文件即可
https://www.zhihu.com/question/290568141/answer/829442104
OCR:
Tesseract
微软Azure 图像识别:https://azure.microsoft.com/z...
有道智云文字识别:http://aidemo.youdao.com/ocrdemo
阿里云图文识别:https://www.aliyun.com/produc...
腾讯OCR文字识别: https://cloud.tencent.com/pro...
一些参考:
python pytesseract psm 选项参数 https://blog.csdn.net/huitailangyz/article/details/80390090
PIL模块介绍 https://blog.csdn.net/zhangziju/article/details/79123275
tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解 http://www.sohu.com/a/162152933_787107
验证码/OCR图像识别预处理(去噪) https://blog.csdn.net/wsp_1138886114/article/details/82956297
Selenium&Pytesseract模拟登录+验证码识别 https://cloud.tencent.com/developer/article/1510012
python实现视频关键帧提取(基于帧间差分) https://blog.csdn.net/u011583927/article/details/84842915
python+opencv 实现图片和文字的分割 https://www.jb51.net/article/164611.htm
Matplotlib绘图时x轴标签重叠的解决办法