1. 背景:
- 编程语言的词汇量一般很少,而且非常结构化,代码只能在拼写和语法完全正确时,编辑和运行
- 人类语言叫「自然语言」,有大量的词汇,不同的词义,不同的口音
- 让计算机拥有语音对话的能力,这个想法从构思计算机就有了
- 「自然语言处理」因此诞生,简称 NLP,它是结合了计算机科学和语言学的一个跨学科领域
- NLP 早起的一个基本问题是怎么把句子切成一块块,数据块越小越容易处理
2. 词性
- 名词、代词、冠词、动词、形容词、副词、介词、连词和感叹词
- 子类
- 单数名词 VS 复数名词
- 副词最高级 VS 副词比较级
3. 短语结构规则
- 电脑也需要知道语法,因此开发了「短语结构规则」来代表语法规则
4. 分析树
- 给语言制定的一系列的规则,用这些规则可以做出「分析树」
- 作用:给每个单词标了可能是什么词性,也标明了句子的结构
5. 语音识别
- 计算机从声音中提取词汇,这个领域叫做「语音识别」
- 贝尔实验室在 1952 年推出了第一个语音识别系统,绰号 Audrey,自动数字识别器
- 1962 年的世界博览会上,IBM 展示了一个鞋盒大小的机器,能识别 16 个单词
- 1971 年,DARPA 启动了一项雄心勃勃的五年筹资计划,之后诞生了卡内基梅隆大学的 Harpy
- Harpy 是第一个可以识别 1000 个单词以上的系统
6. 谱图
- 横轴是时间,纵轴是不同频率的振幅,颜色越亮,那个频率的声音越大
- 这种从波形到频率的转换,是用一种算法实现的,这个算法叫做「快速傅立叶变换 FFT」
- 举例:和立体声系统的 EQ 可视化器类似
- 谱图是随着时间变化的
7. 音素
- 构成单词的声音片段
- 英语大概有 44 种音素
- 语音识别软件知道这些音素,所以本质上变成了音素识别
8. 语音合成
- 用途:让计算机输出语音,很像语音识别,不过反过来把一段文字,分解成多个声音,然后播放这些声音
- 早期语音合成技术,可以清楚听到音素是拼在一起的
- 举例:
- 1937 年,贝尔实验室的手动操作机器
- 如今,Siri, Cortana, Alexa 好了很多,但还不够像人