科大讯飞离线语音识别安装与运行

先从官网下载sdk,有点不懂下载的逻辑..

文件解析:

bin/inc下有四个头文件:msp_errors.h  msp_types.h  qisr.h  qtts.h

msp_errors.h  msp_types.h为通用数据结构的头文件,qisr.h是语音识别用的头文件,qtts.h是语音合成用的头文件。

这是sdk中原代的解释:

复制代码
复制代码
1.doc目录下存放开发文档等;

2.lib目录下存放SDK需要调用的动态库以及需要引用的头文件。

3.example目录下存放提供的示例demo,每个例子下都有Makefile文件,在当前目录make即可;

4.bin目录下存放符合标准的语音文件样例、配置文件和资源文件等,make之后的example可执行程序也会拷贝至此,请在此目录下运行,否则会运行失败;

5.prj目录下提供make脚本,可以快速编译例子。
复制代码
复制代码

 然后我按照它的指示,在example下的asrdome下make,然而报错:找不到 lasound,去看它的makefile文件,其中需要这个库,在网上搜了一下,解决方案如下:

sudo apt-get install alsa-base alsa-utils alsa-source libasound2-dev

重新编译,又报错,警告:检测到时钟错误。您的创建可能是不完整的。

将之前编译创建的 “asrdemo.o” 删除 继续,编译成功。

然后再bin下生成了"asrdemo"可执行文件,在bin目录下运行(./asrdemo)

运行成功。

然而 输出的结果是一堆代码,里面夹杂识别的话。在网上查了一下,代码的函数逻辑大概如下

1.先要调用QISRInit()函数,参数是自己的appid,每个SDK都是注册才能下载的,所以是唯一的,用来区分用户的,不同级别的用户每天可以使用SDK的次数有限制,毕竟人用的多了语音识别的性能肯定会下降;

2.之后就是把GrammarID,输入输出的参数param和调用状态返回值ret作为参数传入QISRSessionBegin()函数中进行初始化,返回值是sessionID,这个是后面所有函数的主要参数之一;

3.打开自己的音频文件,调用QISRAudioWrite()函数写入,可以分段也可以一次,第一个参数是sessionID,上面初始化函数返回的值,第二个参数是音频数据头指针,第三个参数是音频文件大小,第四个参数是音频发送的状态,表示发送完了没有,剩下两个是服务器端检测语音状态和识别状态的返回值;

4.调用QISRGetResult()函数获取识别的结果,第一个参数还是sessionID,第二个参数是输出识别的状态,第三个参数是与服务器交互的间隔时间,官方建议5000,我取为0,第四个参数是调用状态返回值ret,最后这个函数的返回值就是上面结果的json数据了

 

 

录制语音时,使用“ffmpeg”录音,简单方便,符合语音识别的要求。

讯飞语音对语音的要求如下:采样率16K或8KHz,采样位是16位,单声道,格式是PCM或WAV。自带的录音软件都是默认32位采样,只能用ffmpeg或自己写代码录制,ffmpeg命令如下:

ffmpeg -f alsa  -ar 16000 -ac 1 -i hw:0 lib.wav

 

出处:http://www.cnblogs.com/farewell-farewell/p/6086853.html

posted on   jack_Meng  阅读(19871)  评论(0编辑  收藏  举报

编辑推荐:
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
历史上的今天:
2015-03-13 学习动态性能表(22)V$resource_limit
2015-03-13 学习动态性能表(21)v$lincense
2015-03-13 学习动态性能表(20)--v$waitstat
2015-03-13 学习动态性能表(19)--v$undostat
2015-03-13 学习动态性能表(18)--v$system_event
2015-03-13 学习动态性能表(17)--v$segstat&v$segment_statistics
2015-03-13 学习动态性能表(16)--v$rowcache

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示

喜欢请打赏

扫描二维码打赏

支付宝打赏

主题色彩