摘要:
前言其实,很多东西其实很简单,学术就是拿这些“术语”来吓唬人。一言以蔽之马尔可夫就是告诉你,明天的天气只跟今天的天气有关,而跟昨天,前天,大前天的天气没半毛钱关系。拓展其实,想在了解的话,可以再看下去。那马尔可夫有什么用呢,在我看来就是一种思想,即把复杂的东西变简单了比如说上面这个天气,比如你要预测明天的天气Wether明天, 公式如下,写的是啰嗦了点,其实很简单,就是上句话那意思P(天气明天| 天气今天, 天气昨天, 天气前天) = P(天气明天| 天气今天)本来,你要统计前面三天的天气,比如过去三天的天气,比如是下雨,下雨,晴朗,你会发现你要统计的很多,如果运用马尔可夫的话,你只需要统计前 阅读全文
摘要:
the blog is really fantistic http://www.cnblogs.com/taowen/articles/11239.aspxAfter hours of study, I think it's need to keep a note.1. when u want to add in a list, u should should use append, and u should know the mechanisation. list.append(a) mean link the address of a, so when the a is modif 阅读全文
摘要:
关联规则挖掘这里的规则并不是放之四海而皆准的,而是这规则能满足大多数的情况,我们可以发现分类更侧重于科学研究,而这里规则已经显示出其商业价值。下面我们用大家都熟悉的啤酒和尿布来说明问题,那{啤酒} ->{尿布}这条规律是怎么发现的呢transaction表:事务表,表示每位顾客买的东西,比如甲顾客买了A,B,乙顾客买了B,Dcandidate表:候选表,表示可能的食物组合,比如超市一共有100件商品,我们可以发现这个组合数是2^100那我们的规则是这样的,集合A->集合B。因为我们的规则满足两条件,一是规则能适用于一定的范围,而是规则能有一定的准确性。为了满足第一点,我们引进了Fr 阅读全文
摘要:
基于实例的分类器(懒惰分类器)以K-nearest为例说明拿测试实例跟已有的实例的比较,若测试实例跟训练实例一模一样,那毫无疑问该测试实例就是属于这一类,但情况并未都是如此,大部分情况下,得选择该测试实例跟那个已有的实例的“距离”最短,这个距离就得根据具体情况具体分析了,在求两实例的“距离”前得先计算下,一实例在一个属性上表现出的多种特征之间的“距离”。所以得先定义来两特征之间的“距离”,再定义两实例的“距离”。这个分类效果是显著的,但是不足之处也是明显的,因为懒惰,来一个实例,就得计算与其他已有实例的距离,那代价是高。贝叶斯分类器P(C| A1,A2,...A3) 指事件C在事件A1A2A3 阅读全文
摘要:
实验目的:使用wordcount实现中文无词典分词的功能实验背景:文件上传后,进行无词典分词,再进行统计中文词之后,结果在eclipse下显示为乱码针对乱码所做实验:0)文件直接上传,在eclipse打开显示正常,但结果显示乱码1)将文件格式改成UTF-8之后,再上传,结果发现在eclipse下打开是乱码,但在namenode:50070下打开是能显示的,2)在1)的基础上,无视eclipse乱码,在mapper中进行无词典切词,输出文件结果在eclipse乱码,而namenode:50070下均能正常显示,当结果不正确3)在workspace下,将gbk改成utf-8,输入文件除第一行乱码, 阅读全文
摘要:
Problem Description小H是一个程序员。但是他很喜欢一些新奇的东西。有一次,他去找物理实验室的朋友玩。他见到了一串非常有意思的粒子。N个粒子排成一排。每一秒中,每一段连续的粒子中会随意有一个爆炸,爆炸后该粒子就消失了,且将原来连续的一段粒子分隔成两段。小H希望知道所有粒子都爆炸完的期望时间。Input 第一行为一个整数T(1 <= T<= 400),表示有T组测试数据; 每组数据一个正整数N(1<=N<=400),表示一开始的粒子数。Output 对于每组数据,输出期望时间(秒)。保留五位小数。Sample Input3123Sample Output1 阅读全文
摘要:
From the previous blog, I know that there are a lot of zero, which will trigger many questions, such as unpredictability in test data, unavailability of preplexity. So, now we introduce the method smoothing.previous : P(wi | wi-1) = c(wi-1, wi) / c(wi)using smoothing: P(wi | wi-1) = ( c(wi-1, wi) + 阅读全文
摘要:
Two questionOverfittingFrom Unigram, Bigram, Trigram, Quadrigram, the prediction of Quadrigram is better than Trigram, than Bigram, than Unigram.But N-grams only work well for word prediction if the test corpus looks like the training corpus. In real life, this doesn't happen, so we should train 阅读全文
摘要:
Well, after the interview, I gain a lots. Firstly, I will strengthen the practising English so that I can speak fluently. Seconly, I should learn those knowledge which I know deeply insteading of just knowing this. Thirdly, I should have the my study directory or my interesting point so that I can w 阅读全文
摘要:
Every natural language processing tool has to be evaluated and language models have to be evaluated as well.There is two method to evaluate the model language.One is extrinsic evaluation:The best way of comparing any two two language models, A and B is to put each model in a task, and we'll get 阅读全文