2019 年 10月 3 日随笔档案 - 韩雪溪

2019年10月3日

摘要：使用Embedding的原因：使用One-hot 方法编码的向量会很高维也很稀疏。假设我们在做自然语言处理（NLP）中遇到了一个包含2000个词的字典，当时用One-hot编码时，每一个词会被一个包含2000个整数的向量来表示，其中1999个数字是0，要是我的字典再大一点的话这种方法的计算效率岂不阅读全文

posted @ 2019-10-03 15:21 韩雪溪阅读(1169) 评论(0) 推荐(0) 编辑

逐点互信息PMI（Pointwise mutual information）5发

摘要：逐点互信息(PIM)：用来衡量两个事物的相关性定义如下：在概率论中，我们知道，如果x跟y不相关，则 P(x,y) = P(x)P(y)。二者相关性越大，则 P(x,y) 就相比于 P(x)P(y) 越大。根据条件概率公式，你还可以写成这也很好理解，在y出现的情况下x出现的条件概率 p(x|y) 阅读全文

posted @ 2019-10-03 08:43 韩雪溪阅读(4107) 评论(0) 推荐(2) 编辑

韩雪溪

公告