今日论文笔记

一、《基于hash算法的中文分词研究》2007

二、《基于文本挖掘的聚类算法研究》2011

三、《基于词典的汉语自动分词算法的改进》2006

论文一：汉语中4字以上的词已很少了，此论文说了一个4重的hash表、词次字记录结构，词索引表和词典组成的算法。

论文二：比较了K-means聚类算法和K-medoids聚类算法，证明后者较好。

论文三：我看到它带了“改进”二字，可能是很老的论文的缘故，它只是说了一个“字符树”存储法。定义是：整个字典为一个森林，每个单位为一棵树的根节点，以该字为起始的所有二字词的第二个字均是该根节点的孩子，其余多字词以此类推。

posted @ 2015-11-04 21:11 StevenLuke 阅读(128) 评论(0) 收藏举报

刷新页面返回顶部

StevenLuke