2020 年 9月 21 日随笔档案 - 地球上最后一个直男

2020年9月21日

摘要： Noisy Channel Model其实就是指的下面这个公式： $$ P(text|source) = \frac{P(source|text)P(text)}{P(source)} $$ 因为P（source）是一个固定的值，所以又可以写成： $$ P(text|source) \propto 阅读全文

posted @ 2020-09-21 12:03 地球上最后一个直男阅读(771) 评论(0) 推荐(1) 编辑

自然语言处理3-5：文本处理之倒排表

摘要：还记得之前的基于匹配的问答系统吗？系统中有许多的问答对，可能是数百万条，千万条之类的。当用户提出一个问题，系统首先将该问题和问答库中的所有问题求文本相似度，然后选择相似度最高的那个问题，其对应的答案就是系统需要输出的答案。但是，这样做的问题就是复杂度太高了。对于每个问题，系统需要进行百万次或者千万阅读全文

posted @ 2020-09-21 11:27 地球上最后一个直男阅读(301) 评论(0) 推荐(0) 编辑

自然语言处理3-4：文本表示之词向量

摘要：这玩意儿和one-hot就不同了，词向量的表示方法可以称之为分布式表示法首先，向量的维度是自己任意指定的，其次，词向量的值是通过深度学习模型训练出来的。训练的目的也就是使得生成的词向量能够很好地反映出单词的意思，意思相近的单词对应的词向量其相似度也高。如下图所示就是通过训练得到的单词的词向量。其实有阅读全文

posted @ 2020-09-21 01:24 地球上最后一个直男阅读(449) 评论(0) 推荐(0) 编辑

自然语言处理3-3：文本表示之tf-idf

摘要：传统的count-base representation有什么问题呢，可以看下图观察句式2，其对应的向量中he所在位置的元素值是2，因为he在原句中出现了2次。可是，he在这一句中，并不算是关键词，事实上，denied和lied才是句子2的关键词，但是他们只出现了一次，所以在向量中对应位置的元素值阅读全文

posted @ 2020-09-21 01:12 地球上最后一个直男阅读(335) 评论(0) 推荐(0) 编辑

自然语言处理3-2：文本表示之计算相似度

摘要：欧氏距离：如下图所示，欧氏距离越小，表示句子之间相似度越高余弦相似度：如下图，余弦相似度越大，代表相似度越高。欧氏距离么有考虑向量的方向这一大要素，所以余弦相似度更贴切一些。阅读全文

posted @ 2020-09-21 00:59 地球上最后一个直男阅读(263) 评论(0) 推荐(0) 编辑

地球上最后一个直男

公告