DIY一个智能音箱
十一假期里将蓝牙音箱改造成一个智能音箱, 参考了网上的实现方法, 后台的大语言模型使用的是百度的文心一言.
账号
- Picovoice 唤醒词服务 https://console.picovoice.ai/
我绑定了github账号.
访问https://picovoice.ai/,注册账号,然后进入控制台, 目前不支持中文唤醒词, 设置唤醒词后, 然后选择Windows操作系统,就能下载了,下载后的压缩包要解压,才能得到.ppn文件.
Picovoice 提供了python SDK包 pvporcupine, 在程序中可使用该sdk通过对比.ppn内容来识别唤醒词. - 百度智能云-语音类: https://console.bce.baidu.com/ai
实现语音转文本服务, 使用之前需要在console中新增一个应用.
百度也提供唤醒词服务, 但不支持windows, 所以我使用了 PicoVoice. - 百度智能云-大语言模型类: https://console.bce.baidu.com/qianfan/ais/console/applicationConsole/application
提供大语言模型问答功能, 使用之前需要在console中新增应用, 并选择一个大语言模型类型, 我使用的是 ERNIE-Bot-turbo 模型, token较为便宜. - edge-tts: 实现文本转语音服务
不同于微软和百度的TTS, 这个库不需要账号
教程
Picovoice离线语音识别在Linux系统的部署
https://www.cnblogs.com/darren-channel/p/14860973.html
文心一言教程:
https://zhuanlan.zhihu.com/p/656681903
https://zhuanlan.zhihu.com/p/641298242
edge-tts:
https://zhuanlan.zhihu.com/p/619612276
百度千帆大模型平台测试
对话url:
千帆大模型平台集成了业界多个大语言模型, 下面是三个大语言模型的url.
wenxinworkshop/chat/completions -- 文心一言模型
wenxinworkshop/chat/eb-instant -- ERNIE-Bot-turbo模型, token较为便宜
wenxinworkshop/chat/llama_2_7b -- llama_2_7b模型
api官方文档: https://cloud.baidu.com/doc/WENXINWORKSHOP/s/4lilb2lpf
POST 测试:
POST https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/eb-instant?access_token=24xxxxxx"
content-type: application/json
{
"temperature": 0.9,
"messages": [
{
"role": "user",
"content": "假设你是个智能伙伴,名字叫牛顿, 英文名为Newton, 你是一位百科全书式的人物, 你的回答需要非常简洁. 我的问题是:四大名著?"
}
]
}
源码参考
https://github.com/MedalCollector/Orator
https://github.com/FlickerMi/hello-chatgpt/blob/main/requirements.txt
https://notemi.cn/integrate-voice-services-to-achieve-voice-conversations-with-chatgpt.html
https://github.com/wzpan/wukong-robot
https://github.com/phodal/awesome-smart-speaker
深度文章
Keyword Spotting 语音唤醒技术
https://vaisramana.github.io/2019/08/03/keyword-spotting-语音唤醒技术.html
ChatGPT应用
https://wqw547243068.github.io/chatgpt_application
大语言模型沉思录 Deep Think in LLM
https://wqw547243068.github.io/llm
GPT-4要来了,一文看尽大型语言模型的过去现在未来
https://www.thepaper.cn/newsDetail_forward_22275233