NLP(五)

 

训练数据中出现了没见过的数据

Good-Turning Smoothing

假设你在钓鱼,已经抓到了18只鱼:10条鲤鱼,3条黑鱼,2条刀鱼,1条鲨鱼,1条草鱼,1条鳗鱼......

下一个钓到的鱼是鲨鱼的概率?

18条鱼中有一条鲨鱼,1/18

 

下一条鱼是新鱼种(之前没出现过)的概率是多少?

近似的方法,用目前为止钓到一条的鱼来去近似未来新鱼种的概率。钓到1条鲨鱼,1条草鱼,1条鳗鱼,因此近似为3/18

 

既然如此,重新想一下,下一条抓到的鱼为鲨鱼的概率是多少?

第一题的时候,暗含了假定就是六种鱼占满了整个概率空间,概率相加为1,第二题我们扩充了新鱼种,因此六种鱼概率相加小于1,抓到鲨鱼的概率小于1/18

 

 

 

 c草鱼出现了几次,出现了1次,c=1

N总共出现的个数

可以根据自己的数据和词典构建一个表

 

 

 

使用语言模型生成句子

语言模型是生成模型

根据该模型可以生成新的数据

词库,经过语言模型的训练后,得出了每个单词的概率

 

 生成句子

一个一个单词的选,6次循环后可能是

 

 也有可能恰好生成

 

 都是随机的,不考虑上下文

 

Bigram

矩阵,最后一列是终止符号

 

 假定第一个单词I,第二个单词去I这行里寻找概率最大的,是like,然后去like行里找概率大的,studying

 

posted on 2020-07-02 16:42  AI数据  阅读(169)  评论(0编辑  收藏  举报

导航