【笔记】DLHLP - 李宏毅 - 1 - Introduction - 人类语言处理介绍

课程名称:深度学习与人类语言处理(Deep Learning for Human Language Processing)

(自然语言包括文本和语音两种形式,不过自然语言处理大多时候指的是文本处理,所以这门课的名字叫人类语言处理以便区分,因为这门课语音和文本的内容是1:1的)

人类语言处理的终极目标:让机器能够听懂人说的话,看懂人写的句子,并有能力说出人听得懂的话,写出人看得懂的句子。

世界上只有56%的语言有文字形式,而且有些语言的文字系统未必被人们广泛使用(不如语音直接)。所以语音也是非常重要的,而且语音这部分不仅仅只有语音识别任务。

人类语言处理的困难之处
1秒的语音有16K个采样点,每个点包含256个可能的取值。
而且没有人能够说同一段话两次,而语音的波形相同的。
而且一句话其实是可以无限长的。

人类语言处理包含的任务

虽然人类语言处理的任务比较难,不过在深度学习中方法却比较简单,如下图所示(图中的Model就是Deep Network),各种问题硬train一发就能搞定。

自动语音识别ASR

传统的语音识别,包含前端信号处理、声学模型、语言模型还有词典等,要把这些部分都学通,较为复杂,而且模型通常需要2G大小,比较大。
而目前的End-to-End的模型,只需要80MB,可以运行在手机上。

语音合成TSS

在课程视频里演示的语音合成案例里,下图的不同长短的“发财”它的语调居然都是不同的,而这些都是模型自己学出来的(很神奇)。
不过这种黑盒算法也会有一些问题,虽然对于长句效果很好,不过对于短词效果较差(数据问题,训练数据中短句或者单词较少),比如谷歌历史上的翻译破音问题。

语音转换:人声分割SS和音色迁移VC

人声分割:就是把一段语音中混合的不同声音分离出来(End-to-End的模型直接就能做,傅里叶变换都不需要)。
音色迁移:就是把一个人说过的话做音色迁移,输出的结果听起来像是由另外一个人说出来的。甚至还可以输出完全不同的内容。

语音分类:人声辨识SR和关键词识别KS

人声辨识:判断语音是谁说的,
关键词辨识:判断语音中是否出现了关键词。比如唤醒词,Hi, Siri.

文本生成

生成方式:自回归(逐个生成)和非自回归。

应用包括翻译、摘要、聊天机器人、自动问答等。

此外,本门课程还会讲Meta Learning,知识图谱,对抗攻击,可解释AI等内容。

posted @ 2020-07-06 11:10  Yanqiang  阅读(1190)  评论(0编辑  收藏  举报