07 2014 档案

摘要:因为这个算法比较简单,网上的内容页比较丰富,这里就简单说了。Kruskal算法的核心思想是以“边”(edge)为主角,以此把序把短边放到集合当中,只选取那些不构成环的,直到所有的顶点都存在集合当中。该算法的理论依据就是最小生成树的性质:(例如:v∈V-U),且(u,v)具有最小权值,则最小生成树性质... 阅读全文
posted @ 2014-07-21 12:35 道友慢走 阅读(235) 评论(0) 推荐(0) 编辑
摘要:相似度计算的任务是根据两段输入文本的相似度返回从0到1之间的相似度值:完全不相似,则返回0,;完全相同,返回1.衡量两端文字距离的常用方法有:海明距离(Hamming distance),编辑距离,欧氏距离,文档向量的夹角余弦距离,最长公共字串。1. 余弦相似度把两篇文档看作是词的向量,如果x,y为... 阅读全文
posted @ 2014-07-19 16:48 道友慢走 阅读(292) 评论(3) 推荐(1) 编辑
摘要:一个语言模型通常构建为字符串s的概率分布p(s),这里p(s)试图反映的是字符串s作为一个句子出现的频率。例如,在一个人所说的话中每100个句子里面大约有一句是Okay,则可以认为p(Okay)约等于0.01。而对于句子“An apple ate the chicken”我们可以认为其概率是0,... 阅读全文
posted @ 2014-07-18 14:22 道友慢走 阅读(2257) 评论(0) 推荐(0) 编辑
摘要:在马尔科夫模型中,每个状态代表了一个可观察事件,所以,马尔科夫模型有时又称作可是马尔科夫(visible markov model, VMM),这在某种成都航限制了适应性。在隐马尔科夫模型(VMM)中,我们不知道模型所经过的状态序列,只知道状态的概率函数,也就是说,观察到的时间是状态的随机函数,因此... 阅读全文
posted @ 2014-07-15 15:56 道友慢走 阅读(577) 评论(0) 推荐(0) 编辑
摘要:隐马尔科夫模型中有三个问题:1)估计问题:给定一个观察序列O=O1O2...OT和模型u = (A, B, π),如何快速地计算出给定模型u情况下,观察序列O的概率,即P(O|u)2)序列问题: 给定观察序列O=O1O2...OT和模型u = (A, B, π),如何快速有效地选择在一定意义下“最优... 阅读全文
posted @ 2014-07-15 15:45 道友慢走 阅读(188) 评论(0) 推荐(0) 编辑
摘要:使用ruby写的wikipedia上的维特比算法的例子 阅读全文
posted @ 2014-07-15 15:29 道友慢走 阅读(269) 评论(0) 推荐(0) 编辑