Loading

ChatGPT 实时语音交流, speech-to-text and text-to-speech

前言

如果期望与 ChatGPT 进行实时的语音交流,可以直接使用 ChatGPT 的 APP 就可以了,本文完。😂
当然,这需要每月 20 美刀。如果只是想偶尔使用,似乎用 API 的方式更划算。

应该有已经封装好的,可以直接调用 API 进行实时语音交流的工具,暂时没找到满意的,求推荐。

speakdual.com 这个网站算一个,但语音识别部分只支持英文。语音识别使用的是浏览器 API,理论上支持中文的,但是作者没有开放源码,无法修改。

如果要手动实现的话,需要考虑三部分内容, Speech Recognition, AI, Text to speech

Speech Recognition

语音识别可以直接使用 浏览器 API,
Web Speech API - Web API 接口参考 | MDN
好用但不太常用的JS API - Web Speech API开发者指南 - 掘金

Dictation
可以在这个网站上进行测试,默认支持的是英文,说出 "Chinese",可以切换到中文识别,而且中英文混合识别的效果也不错。

也可以直接使用 OpenAI 家的 API Speech to text - OpenAI API

还有就是本地输入法的语音识别,例如搜狗输入法就有这个功能,当然,这个就没法通过 API 来调用了。

或者使用其它的语音识别 API,如讯飞:语音转写 API 文档 | 讯飞开放平台文档中心

从成本和可用性来说,Chrome 浏览器自带的,应该就足够使用了。

AI

这个就没啥说的了,直接调用 OpenAI GPT 的 API,github 上有很多实现。

TTS (Text to speech)

这个可以使用 elevenlabs 的服务, Speech Synthesis: Generate AI Audio & Voiceovers

eleven_multilingual_v2 模型对中英文的效果都不错。不过 API 价格不是很美丽,免费的每月只有 10000 字符额度,如果经常使用,还不如直接买 ChatGPT 的付费版本。

或者也可以使用浏览器的 API,不知道效果如何。

实践

Chatbox 是一个很好的 GPT 助手,通过 API 调用 GPT 服务。

这个 PR 是一个为 Chatbox 添加实时 TTS 的实现
Auto TTS by JasonGrass · Pull Request #1031 · Bin-Huang/chatbox

还需要很多改进,如语音识别部分没有处理。当前我是在本地通过输入法的语音识别操作的。

如果能够直接使用浏览器的语音识别 API,加上界面修改,完全可以达到 speakdual.com 的效果。

参考文章

通过OpenAI API可以建立一个和GPT 4进行实时语音对话的系统 - 掘金
Chrome 语音识别
好用但不太常用的JS API - Web Speech API开发者指南 - 掘金

这里有关于浏览器语音识别 API 和 TTS API 的使用与测试说明
Voice to Text with Chrome Web Speech API

posted @ 2023-11-14 13:34  J.晒太阳的猫  阅读(494)  评论(0编辑  收藏  举报