【笔记】DLHLP - 李宏毅 - 1 - Introduction - 人类语言处理介绍

课程名称：深度学习与人类语言处理(Deep Learning for Human Language Processing)

（自然语言包括文本和语音两种形式，不过自然语言处理大多时候指的是文本处理，所以这门课的名字叫人类语言处理以便区分，因为这门课语音和文本的内容是1:1的）

人类语言处理的终极目标：让机器能够听懂人说的话，看懂人写的句子，并有能力说出人听得懂的话，写出人看得懂的句子。

世界上只有56%的语言有文字形式，而且有些语言的文字系统未必被人们广泛使用（不如语音直接）。所以语音也是非常重要的，而且语音这部分不仅仅只有语音识别任务。

人类语言处理的困难之处：
1秒的语音有16K个采样点，每个点包含256个可能的取值。
而且没有人能够说同一段话两次，而语音的波形相同的。
而且一句话其实是可以无限长的。

人类语言处理包含的任务：

虽然人类语言处理的任务比较难，不过在深度学习中方法却比较简单，如下图所示（图中的Model就是Deep Network），各种问题硬train一发就能搞定。

自动语音识别ASR：

传统的语音识别，包含前端信号处理、声学模型、语言模型还有词典等，要把这些部分都学通，较为复杂，而且模型通常需要2G大小，比较大。
而目前的End-to-End的模型，只需要80MB，可以运行在手机上。

语音合成TSS：

在课程视频里演示的语音合成案例里，下图的不同长短的“发财”它的语调居然都是不同的，而这些都是模型自己学出来的（很神奇）。
不过这种黑盒算法也会有一些问题，虽然对于长句效果很好，不过对于短词效果较差（数据问题，训练数据中短句或者单词较少），比如谷歌历史上的翻译破音问题。

语音转换：人声分割SS和音色迁移VC：

人声分割：就是把一段语音中混合的不同声音分离出来（End-to-End的模型直接就能做，傅里叶变换都不需要）。
音色迁移：就是把一个人说过的话做音色迁移，输出的结果听起来像是由另外一个人说出来的。甚至还可以输出完全不同的内容。

语音分类：人声辨识SR和关键词识别KS：

人声辨识：判断语音是谁说的，
关键词辨识：判断语音中是否出现了关键词。比如唤醒词，Hi, Siri.

文本生成：

生成方式：自回归（逐个生成）和非自回归。

应用包括翻译、摘要、聊天机器人、自动问答等。

此外，本门课程还会讲Meta Learning，知识图谱，对抗攻击，可解释AI等内容。

posted @ 2020-07-06 11:10 Yanqiang 阅读(1229) 评论(0) 编辑收藏举报

刷新页面返回顶部

Morfeo