今日论文笔记
一、《基于hash算法的中文分词研究》2007
二、《基于文本挖掘的聚类算法研究》2011
三、《基于词典的汉语自动分词算法的改进》2006
论文一:汉语中4字以上的词已很少了,此论文说了一个4重的hash表、词次字记录结构,词索引表和词典组成的算法。
论文二:比较了K-means聚类算法和K-medoids聚类算法,证明后者较好。
论文三:我看到它带了“改进”二字,可能是很老的论文的缘故,它只是说了一个“字符树”存储法。定义是:整个字典为一 个森林,每个单位为一棵树的根节点,以该字为起始的所有二字词的第二个字均是该根节点的孩子,其余多字 词以此类推。