MrMission - 博客园

2013年5月5日

摘要：前言其实，很多东西其实很简单，学术就是拿这些“术语”来吓唬人。一言以蔽之马尔可夫就是告诉你，明天的天气只跟今天的天气有关，而跟昨天，前天，大前天的天气没半毛钱关系。拓展其实，想在了解的话，可以再看下去。那马尔可夫有什么用呢，在我看来就是一种思想，即把复杂的东西变简单了比如说上面这个天气，比如你要预测明天的天气Wether明天，公式如下，写的是啰嗦了点，其实很简单，就是上句话那意思P(天气明天| 天气今天, 天气昨天, 天气前天) = P(天气明天| 天气今天)本来，你要统计前面三天的天气，比如过去三天的天气，比如是下雨，下雨，晴朗，你会发现你要统计的很多，如果运用马尔可夫的话，你只需要统计前阅读全文

posted @ 2013-05-05 19:11 MrMission 阅读(1114) 评论(0) 推荐(0) 编辑

2013年5月4日

Python note

摘要： the blog is really fantistic http://www.cnblogs.com/taowen/articles/11239.aspxAfter hours of study, I think it's need to keep a note.1. when u want to add in a list, u should should use append, and u should know the mechanisation. list.append(a) mean link the address of a, so when the a is modif 阅读全文

posted @ 2013-05-04 21:39 MrMission 阅读(234) 评论(0) 推荐(0) 编辑

2013年5月3日

关联规则挖掘

摘要：关联规则挖掘这里的规则并不是放之四海而皆准的，而是这规则能满足大多数的情况，我们可以发现分类更侧重于科学研究，而这里规则已经显示出其商业价值。下面我们用大家都熟悉的啤酒和尿布来说明问题，那{啤酒} ->{尿布}这条规律是怎么发现的呢transaction表：事务表，表示每位顾客买的东西，比如甲顾客买了A,B，乙顾客买了B,Dcandidate表：候选表，表示可能的食物组合，比如超市一共有100件商品，我们可以发现这个组合数是2^100那我们的规则是这样的，集合A->集合B。因为我们的规则满足两条件，一是规则能适用于一定的范围，而是规则能有一定的准确性。为了满足第一点，我们引进了Fr 阅读全文

posted @ 2013-05-03 15:05 MrMission 阅读(323) 评论(0) 推荐(0) 编辑

2013年5月1日

分类器

摘要：基于实例的分类器（懒惰分类器）以K-nearest为例说明拿测试实例跟已有的实例的比较，若测试实例跟训练实例一模一样，那毫无疑问该测试实例就是属于这一类，但情况并未都是如此，大部分情况下，得选择该测试实例跟那个已有的实例的“距离”最短，这个距离就得根据具体情况具体分析了，在求两实例的“距离”前得先计算下，一实例在一个属性上表现出的多种特征之间的“距离”。所以得先定义来两特征之间的“距离”，再定义两实例的“距离”。这个分类效果是显著的，但是不足之处也是明显的，因为懒惰，来一个实例，就得计算与其他已有实例的距离，那代价是高。贝叶斯分类器P(C| A1，A2，...A3) 指事件C在事件A1A2A3 阅读全文

posted @ 2013-05-01 21:05 MrMission 阅读(325) 评论(0) 推荐(0) 编辑

Hadoop中文乱码

摘要：实验目的：使用wordcount实现中文无词典分词的功能实验背景：文件上传后，进行无词典分词，再进行统计中文词之后，结果在eclipse下显示为乱码针对乱码所做实验：0）文件直接上传，在eclipse打开显示正常，但结果显示乱码1）将文件格式改成UTF-8之后，再上传，结果发现在eclipse下打开是乱码，但在namenode:50070下打开是能显示的，2）在1）的基础上，无视eclipse乱码，在mapper中进行无词典切词，输出文件结果在eclipse乱码，而namenode:50070下均能正常显示，当结果不正确3）在workspace下，将gbk改成utf-8，输入文件除第一行乱码，阅读全文

posted @ 2013-05-01 20:07 MrMission 阅读(5302) 评论(0) 推荐(0) 编辑

2013年4月28日

baidu_ACM_Fir

摘要： Problem Description小H是一个程序员。但是他很喜欢一些新奇的东西。有一次，他去找物理实验室的朋友玩。他见到了一串非常有意思的粒子。N个粒子排成一排。每一秒中，每一段连续的粒子中会随意有一个爆炸，爆炸后该粒子就消失了，且将原来连续的一段粒子分隔成两段。小H希望知道所有粒子都爆炸完的期望时间。Input 第一行为一个整数T（1 <= T<= 400），表示有T组测试数据；每组数据一个正整数N（1<=N<=400），表示一开始的粒子数。Output 对于每组数据，输出期望时间（秒）。保留五位小数。Sample Input3123Sample Output1 阅读全文

posted @ 2013-04-28 10:25 MrMission 阅读(257) 评论(0) 推荐(0) 编辑

2013年4月27日

Smoothing: Add-one smoothing

摘要： From the previous blog, I know that there are a lot of zero, which will trigger many questions, such as unpredictability in test data, unavailability of preplexity. So, now we introduce the method smoothing.previous : P(wi | wi-1) = c(wi-1, wi) / c(wi)using smoothing: P(wi | wi-1) = ( c(wi-1, wi) + 阅读全文

posted @ 2013-04-27 19:07 MrMission 阅读(1222) 评论(0) 推荐(0) 编辑

2013年4月25日

Generalization and Zeros

摘要： Two questionOverfittingFrom Unigram, Bigram, Trigram, Quadrigram, the prediction of Quadrigram is better than Trigram, than Bigram, than Unigram.But N-grams only work well for word prediction if the test corpus looks like the training corpus. In real life, this doesn't happen, so we should train 阅读全文

posted @ 2013-04-25 14:40 MrMission 阅读(214) 评论(0) 推荐(0) 编辑

2013年4月23日

Interview of eBay Intern

摘要： Well, after the interview, I gain a lots. Firstly, I will strengthen the practising English so that I can speak fluently. Seconly, I should learn those knowledge which I know deeply insteading of just knowing this. Thirdly, I should have the my study directory or my interesting point so that I can w 阅读全文

posted @ 2013-04-23 21:38 MrMission 阅读(140) 评论(0) 推荐(0) 编辑

2013年4月22日

Evaluation and Perplexity

摘要： Every natural language processing tool has to be evaluated and language models have to be evaluated as well.There is two method to evaluate the model language.One is extrinsic evaluation:The best way of comparing any two two language models, A and B is to put each model in a task, and we'll get 阅读全文

posted @ 2013-04-22 15:26 MrMission 阅读(223) 评论(0) 推荐(0) 编辑