基于语音识别、音文同步、图像OCR的字幕解决方案HtwMedia介绍
背景介绍
俗话说,“好记性不如乱笔头”,这充分说明了文字归档的重要性。如今随着微信、抖音等移动端app的使用越来越广,人们生产音、视频内容也越来越便捷。而相比语音和视频而言,文字具有易存档、易检索、易传播等优点。提取音、视频中的有效信息形成文字并持久化对很多行业都有很现实的意义。
设想一下,一部有知识含量的课件或科普视频往往需要播放多遍才能吃透,如果把它其中的知识提取出来是不是容易检索、理解方便的多?参加讲座或访谈等用录音笔或者手机就可以录下来,而把它整理出来是不是更容易形成知识?影视剧的生产者按照行业规定通常需要加字幕,而一部优秀的国外影视剧如果把它本地化形成双语字幕对于不掌握国外语言的观众会更有用,等等。这些都是HtwMedia的使用场景。
HtwMedia是一款windows系统下的专业字幕及音视频应用解决方案。运用最新的自动语音识别、语音合成及机器翻译、图像OCR等技术可实现视频字幕的提取,时间轴的自动生成,字幕文本的自动生成以及字幕文本和语音的自动对齐等功能。另外软件还实现了基于精准音频波形图的时间码及文本的生成及编辑校对功能,提供视频字幕压制、导出到Premiere、Edius、Final cut pro等非编软件等实用功能。
为什么说HtwMedia是一套解决方案而不仅仅是处理字幕的软件产品呢?因为我们所有的功能都是建立在长时间积累用户需求及使用习惯的基础上,涵盖了在字幕及音视频处理的方方面面。
比如:
- 在用户导入媒体文件时,我们会对媒体做音量调整及降噪处理,对时间过长的媒体文件做切割分段。这些预处理会很大程度上提高自动识别及音文同步的性能。让识别及同步准确率提高哪怕一个百分点,让用户节省每一分钟都是我们的追求。
- 我们会对用户的操作自动保存成工程文件,防止因为操作中断而导致之前的处理结果丢掉。用户再次打开工程的时候可以继续处理。
- 我们不仅提供基于语言识别的字幕生成,而且提供视频中的字幕提取。经常有用户提到:“如何把DVD的vob和sub文件转成srt压制到视频里?如何把蓝光sup文件转成srt文件?如何提取avi/divx文件中的字幕?如何提取硬压制的视频文件中的字幕”等。我们对此运用了最新的图像OCR技术,对视频做解析后,生成关键帧的图像,从图像中提取特定位置的字幕。在提取过程中可以全自动,当自动识别的文本有稍许错误用户可以随时停止修正。提取视频中的文本后可以继续用我们的音文同步技术生成时间码,可以导入Premire、Edius等非编软件的样式、颜色等模板。最后把生成的ass、srt等文件压制到视频里。
- 我们提供批量识别媒体、批量音文同步、批量压制字幕等功能,减少用户多次操作,节省用户时间。
- 我们提供方便的字幕编辑功能。自动语音识别及音文同步目前不可能做到100%准确,尤其是语音环境不好的情况下,所以人工校对不可避免。我们提供了准确的基于音频波形的时间码调整及拍打时间轴功能。另外还有方便的文本编辑器,可以断句,检查字数、分句、合并等。并且播放器、时间轴及文本区互相同步定位。
- 我们提供基于文本的配音功能。用户只需导入要配音的文本,选择喜欢的人声,软件就可以生成断句好的mp3声音文件。
- 我们提供自动翻译功能,可以有效的制作双语字幕。
- 我们提供字幕压制及添加水印功能,可以保护用户的视频不被轻易盗用。
- 提供视频分离音频功能,这样可以有效的减少媒体文件体积,方便利用语言分析。
主要技术参数:
支持的视频格式:
.avi;.mkv;.wmv;.mpg;.mpeg;.divx;.mp4;.asf;.flv;.mov;.m4v;.vob;.ogv;.webm;.ts;.m2ts;.avs;.mxf
支持的音频格式:
*.mp3;*.wav;*.wma;*.ogg;*.mpa;*.m4a;*.ape;*.aiff;*.flac;*.aac;*.ac3;*.mka
媒体播放器:
VLC播放器,可叠加字幕文本
时间轴:
基于ffmpeg解码的音频pcm数据,采样率为16000,单声道;时间上大格间隔1秒,小格0.1秒。纵向缩放每次调整单位为0.1 scale.
自动切轴:
基于webrtc技术的vad模块。除了依据能量阈值还加入了降噪、声音特征分析模块。
自动语音识别:
可识别中、英文及四川、粤语等方言。配合自动切轴、声音预处理后准确率很高。
音文同步:
用户导入音视频文件及文本文件后可在客户端离线同步。同步的原理是把文本合成语音后提取声音特征,然后与原音频匹配以确定文本在媒体中的位置。支持的语言有中、英文等20多种。
文本翻译:
支持的语言有中、英文等20多种语言。
导入文本文件:
支持TXT,Word,SRT,Ass等文件的导入,编码格式为UTF-8.
导出文件:
可以导出TXT,Word,SRT,Ass等文件格式,另外支持导出Premiere的.prtl字幕模板工程、Eduis的.etl模板工程、Avid的STL格式字幕文件、傻丫头字幕模板、Final cut pro的fcpxml格式及fcpxml+image格式的工程。
配音:
目前支持中英混合的字幕文本,以中文为主。声音类型支持自然男声、自然女声、情感男声、情感女声。
使用流程
视频字幕提取:
新建工程或打开自动保存的工程根据文件格式在“字幕提取”子菜单下选择导入相应格式的视频文件选择文本语言及识别方法开始识别校正识别结果。
语音识别生成字幕:
新建工程或打开自动保存的工程导入媒体文件 选择文本语言及识别引擎切轴、调整时间轴语音自动识别人工调整时间码及文本导出。
人工拍时间轴:
新建工程或打开自动保存的工程导入媒体文件 播放媒体文件并以Enter或空格键作为时间码的结束时间 调整时间码。
音文同步:
新建工程或打开自动保存的工程导入媒体文件、导入文本文件 点击音文同步开始自动生成时间码 在“音文同步”菜单下选择推前\退后同步或取点同步人工细调时间码。
使用方式及费用
用户下载软件后有一天的试用期,试用结束后可选择付费注册使用。注册的方法是在“设置”菜单下验证序列号。序列号的获取方式为加入官方QQ群:
414750884,并将机器码及使用时期告知管理员,付费后获得序列号。拿管理员给的序列号在“设置”下注册。
软件的计费以使用期限衡量,包括软件的所有功能,具体请联系官方群管理员。客户一旦购买,我们提供持续的售后支持服务。
另外接受客户的定制开发,具体费用商议后确定。
联系方式
官方QQ群:414750884
下载地址
加官方群提供下载。
作者:Qubook
出处:http://www.cnblogs.com/hard/
版权声明:本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文链接。
联系方式: 个人QQ 1005354833;