_Clarence - 博客园

2012年6月26日

HMM学习最佳范例二：生成模式

摘要： 1、确定性模式（Deterministic Patterns）考虑一套交通信号灯，灯的颜色变化序列依次是红色-红色/黄色-绿色-黄色-红色。这个序列可以作为一个状态机器，交通信号灯的不同状态都紧跟着上一个状态。注意每一个状态都是唯一的依赖于前一个状态，所以，如果交通灯为绿色，那么下一个颜色状态将始终是黄色——也就是说，该系统是确定性的。确定性系统相对比较容易理解和分析，因为状态间的转移是完全已知的。2、非确定性模式（Non-deterministic patterns）为了使天气那个例子更符合实际，加入第三个状态——多云。与交通信号灯例子不同，我们并不期望这三个天气状态之间... 阅读全文

posted @ 2012-06-26 08:58 _Clarence 阅读(143) 评论(0) 推荐(0)

2012年6月14日

分类判定树-ID3算法

摘要：原创作品，转载请指明出处，谢谢！这个算法很简单，我偷懒了，谢谢各位捧场啊，哈哈#include <iostream>#include <string>#include <vector>#include <map>#include <stdio.h>#include <algorithm>#include <cmath>using namespace std;#define MAXLEN 6//输入每行的数据个数//多叉树的实现//1 广义表//2 父指针表示法，适于经常找父结点的应用//3 子女链表示法，适于经阅读全文

posted @ 2012-06-14 10:54 _Clarence 阅读(355) 评论(0) 推荐(0)

频繁模式挖掘FP_growth(频繁增长树)算法

摘要：原创作品，转载请指明出处，谢谢！#include <iostream>#include <map>#include <set>#include <vector>#include <cstring>#include <stdio.h>#include <algorithm>using namespace std;typedef struct CSNode{ //商品编号 string item; //次数 int count; //父节点，孩子节点，兄弟节点 int parent,firstchild,nexts 阅读全文

posted @ 2012-06-14 10:50 _Clarence 阅读(502) 评论(0) 推荐(0)

频繁模式挖掘Apriori算法

摘要：论文我也没有怎么看，看的是书上的，书上讲得很明白，鼓励大家自己写写。有急需的同学可以参考一下我的代码，希望对大家有用。原创作品，转载请指明出处，谢谢！#include <iostream>#include <stdio.h>#include <cstring>#include <vector>#include <algorithm>#include <map>using namespace std;map<string,int> C;map<string,int> L;vector <int& 阅读全文

posted @ 2012-06-14 10:46 _Clarence 阅读(377) 评论(0) 推荐(0)

中文分词开源

摘要： 1、IKAnalyzerIKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。IKAnalyzer3.0特性:采用了特有的“正向迭代最细粒度切分算法“，具有60万字/秒的高速处理能力。采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，阅读全文

posted @ 2012-06-06 17:09 _Clarence 阅读(1302) 评论(0) 推荐(0)

2012年5月27日

HMM学习最佳范例一：介绍

摘要：隐马尔科夫模型（HMM）依然是读者访问“我爱自然语言处理”的一个热门相关关键词，我曾在《HMM学习最佳范例与崔晓源的博客》中介绍过国外的一个不错的HMM学习教程，并且国内崔晓源师兄有一个相应的翻译版本，不过这个版本比较简化和粗略，有些地方只是概况性的翻译了一下，省去了一些内容，所以从今天开始计划在52nlp上系统的重新翻译这个学习教程，希望对大家有点用。一、介绍（Introduction）我们通常都习惯寻找一个事物在一段时间里的变化模式（规律）。这些模式发生在很多领域，比如计算机中的指令序列，句子中的词语顺序和口语单词中的音素序列等等，事实上任何领域中的一系列事件都有可能产生有用的模式。　. 阅读全文

posted @ 2012-05-27 17:11 _Clarence 阅读(205) 评论(0) 推荐(0)

几种不同程序语言的HMM版本

摘要： “纸上得来终觉浅，绝知此事要躬行”，在继续翻译《HMM学习最佳范例》之前，这里先补充几个不同程序语言实现的HMM版本，主要参考了维基百科。读者有兴趣的话可以研究一下代码，这样对于HMM的学习会深刻很多！C语言版：1、 HTK（Hidden Markov Model Toolkit）： HTK是英国剑桥大学开发的一套基于C语言的隐马尔科夫模型工具箱，主要应用于语音识别、语音合成的研究，也被用在其他领域，如字符识别和DNA排序等。HTK是重量级的HMM版本。 HTK主页：http://htk.eng.cam.ac.uk/2、 GHMM Library： The General Hidden ... 阅读全文

posted @ 2012-05-27 17:07 _Clarence 阅读(187) 评论(0) 推荐(0)

wiki上一个比较好的HMM例子

摘要： HMM(隐马尔科夫模型)是自然语言处理中的一个基本模型，用途比较广泛，如汉语分词、词性标注及语音识别等，在NLP中占有很重要的地位。网上关于HMM的介绍讲解文档很多，我自己当时开始看的时候也有点稀里糊涂。后来看到wiki上举得一个关于HMM的例子才如醍醐灌顶，忽然间明白HMM的三大问题是怎么回事了。例子我借助中文wiki重新翻译了一下，并对三大基本问题进行说明，希望对读者朋友有所帮助： Alice 和Bob是好朋友，但是他们离得比较远，每天都是通过电话了解对方那天作了什么.Bob仅仅对三种活动感兴趣:公园散步,购物以及清理房间.他选择做什么事情只凭当天天气.Alice对于Bob所住的地方的天. 阅读全文

posted @ 2012-05-27 16:25 _Clarence 阅读(265) 评论(0) 推荐(0)

2012年5月18日

编写strcpy函数

摘要：面试题里面有这么一个问题：已知strcpy函数的原型是 char *strcpy(char *strDest, const char *strSrc); 其中strDest是目的字符串，strSrc是源字符串。（1）不调用C++/C的字符串库函数，请编写函数 strcpy （2）strcpy能把strSrc的内容复制到strDest，为什么还要char * 类型的返回值？第一问可以这么写：char* str(char* strDest,char* strSrc){ char* strDestCopy=strDest; while((*strDest++=*strSrc... 阅读全文

posted @ 2012-05-18 18:21 _Clarence 阅读(635) 评论(0) 推荐(0)