语音识别 1--概述

1. 语音识别的本质

语音识别的本质就是将一段声音信号转换为文字：

左边的彩色框框代表的是对语音信号进行特征提取后的每一帧的数据。T代表的是帧数，d代表的应该是滤波器个数(特征提取里面有一段是需要经过mel滤波器)，即每一帧的维度。token可以理解为你训练时候词典的构成的最小元素。根据自己选择的不同，token可以分为几种。

2.Token的种类

phoneme是发音的最小单位，在中文中可以理解为：声母和韵母；在英文中可以中理解为一个单词发音的音标。grapheme是最小的书写单位，在英文中可以理解为26个英文字母加上空格或者加上一些其他的标点符号。在中文里面就可以理解为1个字。word就是看做是单词，在中文中就表示一个词语，在英文中就表示一个单词。但是如果token表示word的话，在中文中就会有一个难题，中文到底存在多少个单词？中文常用字大概2000~3000，但是可以组合成无数的词语。Morepheme是一个语言中可以传达意思的最小单位，要比word小但是比grapheme大的单位。但是morepheme的由来需要语言学家或统计学家的统计。 Token的使用情况：

3 几种不同的语音系统的不同输出

4.输入部分

4.1Acoustic Feature

&emsp现在MFCC这个特征提取的方法在语音识别中已经运用的不是很多了，Fbank相对来说多一点。上图中帧长为25ms,帧移为10ms。

。首先通过分帧、加窗、快速傅里叶变换（离散傅里叶变换）,将时域信号（语音波形图）转换为频域信号（频谱图），然后通过mel滤波、取对数就是整个Fbank特征提取过程，最后加上DCT就是MFCC的特征提取过程。下图显示了当前语音提取方法的运用频率，Fbank使用最多，MFCC越来越少了。

几个常用的语音数据集

5.两种不同的语音识别观点

一种是端到端的语音模型seq2seq，即输入语音信号，输出文字。另一种是有点老的HMM（韩梅梅）。

5.1 seq2seq的几种模型

几种模型的使用情况

接下来的几个博客就是上述几种模型的笔记。
上述ppt的下载链接
语音识别【1/7】概述-1_哔哩哔哩 (゜-゜)つロ干杯~-bilibili

posted @ 2020-11-25 21:55 爱吃西瓜的菜鸟阅读(363) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· Linux系列：如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列：如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列（二）：开始使用ML.NET

阅读排行：
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码？试试免邀请码的MGX或者开源的OpenManus吧
· 无需6万激活码！GitHub神秘组织3小时极速复刻Manus，手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· DeepSeek在M芯片Mac上本地化部署

公告

昵称：爱吃西瓜的菜鸟
园龄： 5年4个月
粉丝： 2
关注： 1

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

1. keras实现MobileNet(1)

推荐排行榜

最新评论

1. Re:keras实现MobileNet
是的，倒数第5行Conv/dw/s2应该是s1才合理
--南雨丶木