摘要: 为什么需要平滑操作 假设有一个预料集 我 喜欢 喝 奶茶 我 喜欢 吃 巧克力 我 喜欢 健身 天啦撸,一起同过窗 要出 第三季 了 这个时候要计算“我喜欢喝咖啡”的概率 假设我们用bi-gram模型来计算,也就是说 P(我喜欢喝咖啡) = P(我)P(喜欢|我)P(喝|喜欢)P(咖啡|喝) = ( 阅读全文
posted @ 2020-09-23 20:50 地球上最后一个直男 阅读(910) 评论(0) 推荐(0) 编辑
摘要: perplexity可以用来评估训练的语言模型的好坏,其实就是下面这个公式 $$ perplexity = 2^{-x}\qquad x表示的是平均的log likelihood,也可以理解为平均的概率啦$$ 下面举一个例子,假设我们有一个测试集如下: 我喜欢喝奶茶 假设我们有一个训练好的bi-gr 阅读全文
posted @ 2020-09-23 18:44 地球上最后一个直男 阅读(584) 评论(0) 推荐(0) 编辑
摘要: n-gram模型 unigram模型:假设每个单词的出现概率和前面的单词无关,写成表达式就是 : $$P(\omega _{1},\omega _{2},...,\omega _{n}) = P(\omega _{1})P(\omega _{2} )P(\omega _{3})...P(\omega 阅读全文
posted @ 2020-09-23 18:22 地球上最后一个直男 阅读(377) 评论(0) 推荐(0) 编辑
摘要: Chain Rule 前面讲过的Noisy Channel Model中提到了,P(text)是指的语言模型。那么,语言模型究竟有什么意义,又该怎么求呢? 语言模型其实就是考察text出现的概率。例如,在拼写纠错中,text使我们猜测的正确的单词,那么,这个单词是否常见呢?如果这个单词很常见,就说明 阅读全文
posted @ 2020-09-23 17:20 地球上最后一个直男 阅读(386) 评论(0) 推荐(0) 编辑