Traditional Language Model

Traditional Language Model通常用于回答下述问题：

\(p_{LM}(\)the house is small\()\ge p_{LM}(\) small the is house\()\)
\(p_{LM}(\)I am going home\()\ge p_{LM}(\)I am going house\()\)

我们可以使用 chain rule 将该句子分解（decompose）:

\[\begin{split}p(w_1, w_2, w_3...w_n) &=p(w_1) * p(w_2|w_1)*p(w_3|w_1,w_2)\cdots* p(w_n| w_1, w_2\cdots w_{n-1})\end{split} \]

我们发现 \(p(w_n| w_1, w_2\cdots w_{n-1})\)需要很多前置项\(w_1, w_2\cdots w_{n-1}\)，在数据集中很难计算，十分稀疏（sparse）。

Markov 假设

这样表示就相对简便。

\[P(w_i|w_0\cdots w_{i−1})\approx P(w_i) \]

\[P(w_i|w_0\cdots w_{i−1})\approx P(w_i|w_{i-1}) \]

\[P(w_i|w_0\cdots w_{i−1})\approx P(w_i|w_{i-1},w_{i-2}) \]

例如，2-gram的 language model：

\[p(w_1, w_2, w_3,\cdots w_n)\approx p(w_1) * p(w_2|w_1) * p(w_3|w_2) \cdots p(w_n|w_{n-1}) \]

\[p(w_2|w_1)=\frac{count(w_1,w_2)}{count(w_1)} \]

所以我们只需要找一个大词库，然后统计\(w_1\)出现的次数和\(w_1,w_2\)共同出现的次数，即可。

posted @ 2016-09-01 14:09 姜楠阅读(294) 评论(0) 编辑收藏举报

刷新页面返回顶部