DIY一个智能音箱

十一假期里将蓝牙音箱改造成一个智能音箱, 参考了网上的实现方法, 后台的大语言模型使用的是百度的文心一言.

账号

  1. Picovoice 唤醒词服务 https://console.picovoice.ai/
    我绑定了github账号.
    访问https://picovoice.ai/,注册账号,然后进入控制台, 目前不支持中文唤醒词, 设置唤醒词后, 然后选择Windows操作系统,就能下载了,下载后的压缩包要解压,才能得到.ppn文件.
    Picovoice 提供了python SDK包 pvporcupine, 在程序中可使用该sdk通过对比.ppn内容来识别唤醒词.
  2. 百度智能云-语音类: https://console.bce.baidu.com/ai
    实现语音转文本服务, 使用之前需要在console中新增一个应用.
    百度也提供唤醒词服务, 但不支持windows, 所以我使用了 PicoVoice.
  3. 百度智能云-大语言模型类: https://console.bce.baidu.com/qianfan/ais/console/applicationConsole/application
    提供大语言模型问答功能, 使用之前需要在console中新增应用, 并选择一个大语言模型类型, 我使用的是 ERNIE-Bot-turbo 模型, token较为便宜.
  4. edge-tts: 实现文本转语音服务
    不同于微软和百度的TTS, 这个库不需要账号

教程

Picovoice离线语音识别在Linux系统的部署
https://www.cnblogs.com/darren-channel/p/14860973.html

文心一言教程:
https://zhuanlan.zhihu.com/p/656681903
https://zhuanlan.zhihu.com/p/641298242

edge-tts:
https://zhuanlan.zhihu.com/p/619612276

百度千帆大模型平台测试

对话url:
千帆大模型平台集成了业界多个大语言模型, 下面是三个大语言模型的url.
wenxinworkshop/chat/completions -- 文心一言模型
wenxinworkshop/chat/eb-instant -- ERNIE-Bot-turbo模型, token较为便宜
wenxinworkshop/chat/llama_2_7b -- llama_2_7b模型

api官方文档: https://cloud.baidu.com/doc/WENXINWORKSHOP/s/4lilb2lpf

POST 测试:

POST https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/eb-instant?access_token=24xxxxxx"  
content-type: application/json

{
    "temperature": 0.9,
    "messages": [
        {
            "role": "user",
            "content": "假设你是个智能伙伴,名字叫牛顿, 英文名为Newton, 你是一位百科全书式的人物, 你的回答需要非常简洁. 我的问题是:四大名著?"
        }
        ]
}

源码参考

https://github.com/MedalCollector/Orator
https://github.com/FlickerMi/hello-chatgpt/blob/main/requirements.txt
https://notemi.cn/integrate-voice-services-to-achieve-voice-conversations-with-chatgpt.html
https://github.com/wzpan/wukong-robot
https://github.com/phodal/awesome-smart-speaker

深度文章

Keyword Spotting 语音唤醒技术
https://vaisramana.github.io/2019/08/03/keyword-spotting-语音唤醒技术.html

ChatGPT应用
https://wqw547243068.github.io/chatgpt_application

大语言模型沉思录 Deep Think in LLM
https://wqw547243068.github.io/llm

GPT-4要来了,一文看尽大型语言模型的过去现在未来
https://www.thepaper.cn/newsDetail_forward_22275233

posted @ 2023-10-03 18:41  harrychinese  阅读(632)  评论(1编辑  收藏  举报