自然语言第一课(综述)
人类处理语言一共有六种模型
第一种,输入是语音,输出是文字——语音辨识(Automatic Speech Recognition-ASR)
第二种,输入是文字,输出是语音——语音合成
第三种,输入是语音,输出是语音
第四种,输入是语音,输出这是语音的哪个类别(class)
第一种例子是输入一段语音,通过模型辨别出是哪个人再说
第二种例子是输入一段语音,通过模型辨别出关键词/字
Keyword Spotting特别指的是手机中的客服,比如说siri,Alexa,小爱同学。你要唤醒它,必须说关键词,hey siri/Alexa/小爱同学。因此要一直监听环境声音,非常消耗资源,因此做keyword spotting技术,必须考虑好如何省电,如何压缩模型。
第五种,输入是文字,输出也是文字
很多例子,比如,转不同的语言。一大篇文字,输出一个梗概。输入问题,回答问题。输入问题,输出答案。
第六种,输入是文字,输出是文字的哪个类别(class)