摘要: Noisy Channel Model其实就是指的下面这个公式: $$ P(text|source) = \frac{P(source|text)P(text)}{P(source)} $$ 因为P(source)是一个固定的值,所以又可以写成: $$ P(text|source) \propto 阅读全文
posted @ 2020-09-21 12:03 地球上最后一个直男 阅读(771) 评论(0) 推荐(1) 编辑
摘要: 还记得之前的基于匹配的问答系统吗?系统中有许多的问答对,可能是数百万条,千万条之类的。当用户提出一个问题,系统首先将该问题和问答库中的所有问题求文本相似度,然后选择相似度最高的那个问题,其对应的答案就是系统需要输出的答案。 但是,这样做的问题就是复杂度太高了。对于每个问题,系统需要进行百万次或者千万 阅读全文
posted @ 2020-09-21 11:27 地球上最后一个直男 阅读(301) 评论(0) 推荐(0) 编辑
摘要: 这玩意儿和one-hot就不同了,词向量的表示方法可以称之为分布式表示法首先,向量的维度是自己任意指定的,其次,词向量的值是通过深度学习模型训练出来的。训练的目的也就是使得生成的词向量能够很好地反映出单词的意思,意思相近的单词对应的词向量其相似度也高。如下图所示就是通过训练得到的单词的词向量。其实有 阅读全文
posted @ 2020-09-21 01:24 地球上最后一个直男 阅读(449) 评论(0) 推荐(0) 编辑
摘要: 传统的count-base representation有什么问题呢,可以看下图 观察句式2,其对应的向量中he所在位置的元素值是2,因为he在原句中出现了2次。可是,he在这一句中,并不算是关键词,事实上,denied和lied才是句子2的关键词,但是他们只出现了一次,所以在向量中对应位置的元素值 阅读全文
posted @ 2020-09-21 01:12 地球上最后一个直男 阅读(335) 评论(0) 推荐(0) 编辑
摘要: 欧氏距离:如下图所示,欧氏距离越小,表示句子之间相似度越高 余弦相似度:如下图,余弦相似度越大,代表相似度越高。欧氏距离么有考虑向量的方向这一大要素,所以余弦相似度更贴切一些。 阅读全文
posted @ 2020-09-21 00:59 地球上最后一个直男 阅读(263) 评论(0) 推荐(0) 编辑