CS224n: Natural Language Processing with Deep Learning 学习笔记

课程地址：http://web.stanford.edu/class/cs224n/
时间：2017年
主讲：Christopher Manning、Richard

Lecture 1: Introduction

NLP：Natural language processing

常见自然语言项目：（有一次面试问过）

微软 Cortana
苹果 Siri （消费级技术）
亚马逊 Alexa
小米小爱
百度小度
天猫天猫精灵

人类语言的特点：

明确的指向性
语言是符号、符号不基于任何逻辑和AI
具有连续的载体（以唠嗑就根本停不下来）

2015年之前的机器学习都是人在做大量的数据分析（比如：手动特征工程），而机器只是在做数值的优化（事实上电脑很适合做数值优化，人类不适合）。
这并不是我们所期望的机器学习。
深度学习（Deeplearning）是表征学习（Representation Learning）的一个重要分支。
表征学习的理念是，我们可以向电脑提供来自世界的原始信号，无论是视觉信息还是语言信息，然后电脑可以自动得出好的中介表征来很好的完成任务，从某种意义上来说，它是自己定义特征。
深度学习不只是基于神经网络，也可以是概率模型以及其他方法运用于深度架构中。（概率图模型）
利用深度学习学习词向量，高维空间成为了非常棒的语义空间。具有相同含义的词聚集成块，向量空间存在方向，它会透露关于成分和意义的信息。
然而人类不擅长解读高维空间的信息，人类跟习惯于2维度和3维度的信息表示。

Lecture 2: Word Vectors

单词简单的含义是一个单词代表一种东西。

离散化的东西难以表达出连续型的特征，而语义往往是连续化的，单词是离散化的。
离散化表示词向量不能体现词与词之间的相互关系。单词需要通过上下文来理解他的含义。
分布式表示：密集型词向量表示词汇

word2vec

word2vec两个模型：

skip-gram（SG）给定一个中心词某个单词在上下文中出现的概率
Continuous Bag of Words （CBOW）

我们使用softmax来度量词向量的概率，这种求积类似于一种粗糙衡量相似性的方法。
两种向量表示有一种简单的，也有一种难。也有可能两种向量的一样简单，我们在做次向量的时候回选择简单的。

两个向量的相似性越大那么这两个的点积就越大。这是一种通过点积衡量相似性的方法。
（个人理解，点积就是一种空间向量的形式，我用这种形式来衡量两个向量的相似性）
我们得到点积的形式，然后把他转化成softmax的形式

softmax 将数值转化成概率的标准方法
指数函数的值一定为正数，把正数转变成等比例的概率