RapidVideOCR:视频硬字幕提取

简体中文 | English

简介
TODO
整体框架
使用步骤
更新日志（more）
写在最后

1|0简介

视频硬字幕提取，自动生成对应srt | txt文件。
支持字幕语言：中文 | 英文（其他可以支持的语言参见：支持语种列表)
可加入QQ群：706807542
更快更准确地提取视频硬字幕，并提供srt| txtl两种格式的输出：
- 更快：与VideoSubFinder软件结合使用，提取关键字幕帧更快。
- 更准：采用RapidOCR作为识别库。
- 更方便：pip直接安装即可使用。
该工具处于发展中。在使用过程中，如果遇到任何问题，欢迎提issue或者入群反馈。
如果不愿意用的话，不用就好，不要影响自己心情。
如果有帮助到您的话，请给个小星星⭐或者赞助一杯咖啡（点击页面最上面的Sponser中链接）。

2|0TODO

增加对VideoSubFinder软件提取字幕帧结果的处理接口
叠字识别功能
尝试将VideoSubFinder核心功能整合到本项目中，通过其开放的CLI mode
API docs

3|0整体框架

4|0使用步骤

安装使用VideoSubFinder软件
- 下载地址：videosubfinder / QQ群（706807542）共享文件
- 使用教程：VideoSubFinder提取字幕关键帧教程
- 最终生成的RGBImages和TXTImages目录一般会在软件安装目录下
- ✧ 推荐用RGBImages目录中图像（感谢小伙伴dyphire在#21的反馈）
安装rapid_videocr
```
pip install rapid_videocr
```

使用RapidVideOCR工具

脚本运行：

from rapid_videocr import RapidVideOCR

# RapidVideOCR有两个初始化参数
# is_concat_rec: 是否用单张图识别，默认是False，也就是默认用单图识别
# concat_batch: 叠图识别的图像张数，默认10，可自行调节
extractor = RapidVideOCR()

rgb_dir = 'test_files/TXTImages'
save_dir = 'result'
extractor(rgb_dir, save_dir)

命令行运行：

Usage:

$ rapid_videocr -h
usage: rapid_videocr [-h] [-i IMG_DIR] [-s SAVE_DIR] [-o {srt,txt,all}]
                   [-m {single,concat}]

optional arguments:
-h, --help            show this help message and exit
-i IMG_DIR, --img_dir IMG_DIR
                       The full path of RGBImages or TXTImages.
-s SAVE_DIR, --save_dir SAVE_DIR
                       The path of saving the recognition result.
-o {srt,txt,all}, --out_format {srt,txt,all}
                       Output file format. Default is "all"
-m {single,concat}, --mode {single,concat}
                       Which mode to run (concat recognition or single
                       recognition), default is "single"
-b CONCAT_BATCH, --concat_batch CONCAT_BATCH
                       The batch of concating image nums in concat
                       recognition mode. Default is 10.

Example:

$ rapid_videocr -i RGBImages -s Results -o srt -m concat -b 10

查看结果
- 前往save_dir目录下即可查看结果。
- 值得注意的是，如果想要让视频播放软件自动挂载srt文件，需要更改srt文件名字为视频文件名字，且放到同一目录下，亦或者手动指定加载。

5|0更新日志（more）

😀2023-03-14 v2.1.3 update:
- 修复输入TXTImages目录且叠字识别时错误
😜2023-03-12 v2.1.2 update:
- 修复索引错误，#22

6|0写在最后

扫码加入组织：

__EOF__

本文作者：Danno
本文链接：https://www.cnblogs.com/shiwanghualuo/p/16989466.html
关于博主：评论和私信会在第一时间回复。或者直接私信我。
版权声明：本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！
声援博主：如果您觉得文章对您有帮助，可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力！