2013 年 5月 19 日随笔档案 - MrMission

2013年5月19日

摘要：看了互联网时代的社会语言学：基于SNS的文本数据挖掘blog地址：http://www.matrix67.com/blog/archives/5044全文思路1、介绍了无词典分词，且要考虑两个因素，一是内部凝固程度，二是外部自由程度2、举例说明，使用后缀数组，以O（nlogn）的时间复杂度来实现该算法3、介绍应用场景白话文１、不需要词典就把这句话给分了，有两个重点考核，一是排除那些是因为字偶然碰在一起形成的“词”，比如“的电影”；二是排除那些扩展性差的“词”，比如“辈子”２、暂时不涉及３、暂时不涉及我的体会抛开应用背景不讲，我关心的还是无词典分词，以下讲讲我的理解从细节上讲，如何算该词的概率，阅读全文

posted @ 2013-05-19 21:20 MrMission 阅读(2114) 评论(0) 推荐(1) 编辑