摘要:
使用Embedding的原因: 使用One-hot 方法编码的向量会很高维也很稀疏。假设我们在做自然语言处理(NLP)中遇到了一个包含2000个词的字典,当时用One-hot编码时,每一个词会被一个包含2000个整数的向量来表示,其中1999个数字是0,要是我的字典再大一点的话这种方法的计算效率岂不 阅读全文
摘要:
逐点互信息(PIM):用来衡量两个事物的相关性 定义如下: 在概率论中,我们知道,如果x跟y不相关,则 P(x,y) = P(x)P(y)。二者相关性越大,则 P(x,y) 就相比于 P(x)P(y) 越大。根据条件概率公式,你还可以写成 这也很好理解,在y出现的情况下x出现的条件概率 p(x|y) 阅读全文