毕业设计记录——3.4

　　今天实现了通过nodejs自动保存主讲人的视频生成webm文件，同时生成一个ogg音频文件。webm针对之后的视频回放，ogg针对语音转文字生成会议纪要。

关于语音转文字，阿里、腾讯的api好像都是收费的，打算使用百度正在测试的音频文件转写api，目前正在申请测试资格。

　　问题：1.视频回放想做成所有主讲人视频的集合，但是目前只能生成单个视频文件，而且这还是需要主持人来控制，点击开始会议则开始录制，结束会议则保存成一个文件。

　　　　　2.音频倒是可以生成多个音频文件再转文字，如何对应某个主讲人。

　　　　　3.目前测试资格还未申请下来，大概看了下api，好像只能识别["mp3", "wav", "pcm"]这三种，还需要调用ffmpeg把ogg转成成wav。

　　　　　4.百度语音识别是在python上跑的，这样的话，系统集成为一个比较麻烦。会议管理流程是用spring boot写的，视频用的nodejs，就无法部署到我那廉价阿里云服务器。

posted @ 2020-03-04 22:09 旁光阅读(189) 评论(0) 编辑收藏举报

刷新页面返回顶部

旁光