NLP(一）

机器学习
人工找特征让电脑校对这些特征计算最优表现
深度学习
电脑自己找特征（获得多层习得特征）
深度学习来学习高维向量，将词放在高维向量空间中，这些空间就是词义空间
词义相同的形成聚集块
坐标轴并没有实际意义，用了降维分析后会丢失空间中许多信息
将词的每个部分都想象成向量的一部分

目标

通过词汇预测上下文
我们选择一个密集型向量，使得它可以预测目标词汇中的其他文本
Word2Vec:构建一个简单的，快速的训练模型，让我们处理数十亿的单词并生成的单词表示

比如在句子...furing into banking cnises as...中，选取bangking作为中心词汇（m表示半径，即窗口半径）

则存在一个概率分布使得中心词汇左右的上下文的概率最大

通过内积衡量两个单词的相似性
通过SoftMax将数值变为概率（逻辑回归）

python代码

while True:
      theta_grad=evaluate_gradient(T,corpus,theta)
      theta=theta-alpha*theta_grad

只要我们随机选取一个位置，就有了一个中心词汇以及它们周围的词汇。我们移动一个位置，对所有的参数求梯度。

根据研究发现，单词具有多重意义符合线性组合
使用余弦距离表示相似性 d=arg max((xb-xa+xc)Txi/||xb-xa+xc||)
比如,max:woman king:queen

posted @ 2020-10-23 11:53 小帆敲代码阅读(76) 评论(0) 编辑收藏举报

刷新页面返回顶部