07 2014 档案
摘要:因为这个算法比较简单,网上的内容页比较丰富,这里就简单说了。Kruskal算法的核心思想是以“边”(edge)为主角,以此把序把短边放到集合当中,只选取那些不构成环的,直到所有的顶点都存在集合当中。该算法的理论依据就是最小生成树的性质:(例如:v∈V-U),且(u,v)具有最小权值,则最小生成树性质...
阅读全文
摘要:相似度计算的任务是根据两段输入文本的相似度返回从0到1之间的相似度值:完全不相似,则返回0,;完全相同,返回1.衡量两端文字距离的常用方法有:海明距离(Hamming distance),编辑距离,欧氏距离,文档向量的夹角余弦距离,最长公共字串。1. 余弦相似度把两篇文档看作是词的向量,如果x,y为...
阅读全文
摘要:一个语言模型通常构建为字符串s的概率分布p(s),这里p(s)试图反映的是字符串s作为一个句子出现的频率。例如,在一个人所说的话中每100个句子里面大约有一句是Okay,则可以认为p(Okay)约等于0.01。而对于句子“An apple ate the chicken”我们可以认为其概率是0,...
阅读全文
摘要:在马尔科夫模型中,每个状态代表了一个可观察事件,所以,马尔科夫模型有时又称作可是马尔科夫(visible markov model, VMM),这在某种成都航限制了适应性。在隐马尔科夫模型(VMM)中,我们不知道模型所经过的状态序列,只知道状态的概率函数,也就是说,观察到的时间是状态的随机函数,因此...
阅读全文
摘要:隐马尔科夫模型中有三个问题:1)估计问题:给定一个观察序列O=O1O2...OT和模型u = (A, B, π),如何快速地计算出给定模型u情况下,观察序列O的概率,即P(O|u)2)序列问题: 给定观察序列O=O1O2...OT和模型u = (A, B, π),如何快速有效地选择在一定意义下“最优...
阅读全文
摘要:使用ruby写的wikipedia上的维特比算法的例子
阅读全文