摘要:
看了互联网时代的社会语言学:基于SNS的文本数据挖掘blog地址:http://www.matrix67.com/blog/archives/5044全文思路1、介绍了无词典分词,且要考虑两个因素,一是内部凝固程度,二是外部自由程度2、举例说明,使用后缀数组,以O(nlogn)的时间复杂度来实现该算法3、介绍应用场景白话文1、不需要词典就把这句话给分了,有两个重点考核,一是排除那些是因为字偶然碰在一起形成的“词”,比如“的电影”;二是排除那些扩展性差的“词”,比如“辈子”2、暂时不涉及3、暂时不涉及我的体会抛开应用背景不讲,我关心的还是无词典分词,以下讲讲我的理解从细节上讲,如何算该词的概率, 阅读全文