摘要: 一个语言模型通常构建为字符串s的概率分布p(s),这里p(s)试图反映的是字符串s作为一个句子出现的频率。例如,在一个人所说的话中每100个句子里面大约有一句是Okay,则可以认为p(Okay)约等于0.01。而对于句子“An apple ate the chicken”我们可以认为其概率是0,... 阅读全文
posted @ 2014-07-18 14:22 道友慢走 阅读(2256) 评论(0) 推荐(0) 编辑
摘要: 在马尔科夫模型中,每个状态代表了一个可观察事件,所以,马尔科夫模型有时又称作可是马尔科夫(visible markov model, VMM),这在某种成都航限制了适应性。在隐马尔科夫模型(VMM)中,我们不知道模型所经过的状态序列,只知道状态的概率函数,也就是说,观察到的时间是状态的随机函数,因此... 阅读全文
posted @ 2014-07-15 15:56 道友慢走 阅读(576) 评论(0) 推荐(0) 编辑
摘要: bloomFilter是70年代提出来的一个利用时间,错误率来换取空间的应用。应用在大数据量的情况下,比如爬虫抓取的大量url,用来判断哪些url是已经爬取过的。m =>使用的散列长度,这个值通常用来创建BitSet的长度,java.util.BitSetn =>待散列的字符串的个数。k =>使用的... 阅读全文
posted @ 2014-08-28 11:01 道友慢走 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 推荐Coursera上的响应式编程课程,这个课程是scala语言的进阶课程。课程的开始提出了这样一个应用场景:构建Json串,不知道Json的同学随便google一下。为了做到这些事情,我们定义了下面的一些类abstract class JSON case class JSeq(elems: Lis... 阅读全文
posted @ 2014-08-05 17:24 道友慢走 阅读(295) 评论(0) 推荐(0) 编辑
摘要: def getAs[T >: Null](id: JsonElement, field: T): T = field match { case s: Class[Long] => id.getAsLong.asInstanceOf[T] case s: Class[Int] => id... 阅读全文
posted @ 2014-08-04 13:51 道友慢走 阅读(465) 评论(0) 推荐(0) 编辑
摘要: 因为这个算法比较简单,网上的内容页比较丰富,这里就简单说了。Kruskal算法的核心思想是以“边”(edge)为主角,以此把序把短边放到集合当中,只选取那些不构成环的,直到所有的顶点都存在集合当中。该算法的理论依据就是最小生成树的性质:(例如:v∈V-U),且(u,v)具有最小权值,则最小生成树性质... 阅读全文
posted @ 2014-07-21 12:35 道友慢走 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 相似度计算的任务是根据两段输入文本的相似度返回从0到1之间的相似度值:完全不相似,则返回0,;完全相同,返回1.衡量两端文字距离的常用方法有:海明距离(Hamming distance),编辑距离,欧氏距离,文档向量的夹角余弦距离,最长公共字串。1. 余弦相似度把两篇文档看作是词的向量,如果x,y为... 阅读全文
posted @ 2014-07-19 16:48 道友慢走 阅读(292) 评论(3) 推荐(1) 编辑
摘要: 隐马尔科夫模型中有三个问题:1)估计问题:给定一个观察序列O=O1O2...OT和模型u = (A, B, π),如何快速地计算出给定模型u情况下,观察序列O的概率,即P(O|u)2)序列问题: 给定观察序列O=O1O2...OT和模型u = (A, B, π),如何快速有效地选择在一定意义下“最优... 阅读全文
posted @ 2014-07-15 15:45 道友慢走 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 使用ruby写的wikipedia上的维特比算法的例子 阅读全文
posted @ 2014-07-15 15:29 道友慢走 阅读(269) 评论(0) 推荐(0) 编辑