2015 年 11月 4 日随笔档案 - StevenLuke

2015年11月4日

摘要：一、《基于hash算法的中文分词研究》2007 二、《基于文本挖掘的聚类算法研究》2011 三、《基于词典的汉语自动分词算法的改进》2006 论文一：汉语中4字以上的词已很少了，此论文说了一个4重的hash表、词次字记录结构，词索引表和词典组成的算法。论文二：比较了K-means聚类算法和... 阅读全文

posted @ 2015-11-04 21:11 StevenLuke 阅读(121) 评论(0) 推荐(0) 编辑

正向最大匹配中文分词算法

摘要：中文分词一直都是中文自然语言处理领域的基础研究。目前，网络上流行的很多中文分词软件都可以在付出较少的代价的同时，具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何，目前而言的分词系统绝大多数都是基于中文词典的匹配算法。在这里我想介绍一下中文分词的一个最基础算法... 阅读全文

posted @ 2015-11-04 20:53 StevenLuke 阅读(1034) 评论(0) 推荐(0) 编辑

基于Tire树和最大概率法的中文分词功能的Java实现

摘要：对于分词系统的实现来说，主要应集中在两方面的考虑上：一是对语料库的组织，二是分词策略的制订。 1. Tire树 Tire树，即字典树，是通过字串的公共前缀来对字串进行统计、排序及存储的一种树形结构。其具有如下三个性质： 1) 根节点不包含字符（或汉字），除根节点以外的每个节... 阅读全文

posted @ 2015-11-04 20:51 StevenLuke 阅读(254) 评论(0) 推荐(0) 编辑

杭电acm1029

摘要： #include #include int main() { int n, i, temp, max, flag, id; int book[1000000]; while(~scanf("%d", &n)) { memset(book, 0, sizeof(book)); max = -... 阅读全文

posted @ 2015-11-04 14:43 StevenLuke 阅读(127) 评论(0) 推荐(0) 编辑

StevenLuke

公告