今日论文笔记

一、《基于hash算法的中文分词研究》2007

二、《基于文本挖掘的聚类算法研究》2011

三、《基于词典的汉语自动分词算法的改进》2006


论文一:汉语中4字以上的词已很少了,此论文说了一个4重的hash表、词次字记录结构,词索引表和词典组成的算法。

论文二:比较了K-means聚类算法和K-medoids聚类算法,证明后者较好。

论文三:我看到它带了“改进”二字,可能是很老的论文的缘故,它只是说了一个“字符树”存储法。定义是:整个字典为一       个森林,每个单位为一棵树的根节点,以该字为起始的所有二字词的第二个字均是该根节点的孩子,其余多字       词以此类推。

posted @ 2015-11-04 21:11  StevenLuke  阅读(121)  评论(0编辑  收藏  举报