[NLP]语言模型
语言模型:是一种计算语句自然程度的算法,通过计算概率来做,举个例子:
sent:我想学英语,先将句子分词为:我 想 学 英语,则这个句子的自然程度的计算为p(sent) = p(我)p(想|我)p(学|我,想)p(英语|我,想,学)
但是p(英语|我,想,学)的概率是很难计算的,所以为解决这种问题,我们会做一个马尔科夫假设,并在该假设下提出unigram,bi-gram,tri-gram等方法:
unigram:p(sent) = p(我)p(想)p(学)p(英语)
bi-gram:p(sent) = p(我)p(想|我)p(学|想)p(英语|学)
tri-gram:p(sent) = p(我)p(想|我)p(学|我,想)p(英语|想,学)
注:马尔科夫假设是指一个事物的状态与他的之前状态有关,并计算条件概率的一种假设。