摘要:
一、《基于hash算法的中文分词研究》2007 二、《基于文本挖掘的聚类算法研究》2011 三、《基于词典的汉语自动分词算法的改进》2006 论文一:汉语中4字以上的词已很少了,此论文说了一个4重的hash表、词次字记录结构,词索引表和词典组成的算法。 论文二:比较了K-means聚类算法和... 阅读全文
摘要:
中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。 在这里我想介绍一下中文分词的一个最基础算法... 阅读全文
摘要:
对于分词系统的实现来说,主要应集中在两方面的考虑上:一是对语料库的组织,二是分词策略的制订。 1. Tire树 Tire树,即字典树,是通过字串的公共前缀来对字串进行统计、排序及存储的一种树形结构。其具有如下三个性质: 1) 根节点不包含字符(或汉字),除根节点以外的每个节... 阅读全文
摘要:
#include #include int main() { int n, i, temp, max, flag, id; int book[1000000]; while(~scanf("%d", &n)) { memset(book, 0, sizeof(book)); max = -... 阅读全文