2015年2月15日

【文本挖掘】模拟退火英文分词

摘要: 大概原理是找到文本中重复项最多的文本作为词典,代价函数为词典的累计词长和文本分词数之和,迭代找到代价函数最小值所对应的词典和分词结果。方法简单,跑出来的结果也挺有意思。 1 from random import randint 2 3 4 def segment(text,segs): 5 ... 阅读全文

posted @ 2015-02-15 14:37 colipso 阅读(279) 评论(0) 推荐(0) 编辑

导航