2015 年 2月 15 日随笔档案 - colipso

2015年2月15日

【文本挖掘】模拟退火英文分词

摘要：大概原理是找到文本中重复项最多的文本作为词典，代价函数为词典的累计词长和文本分词数之和，迭代找到代价函数最小值所对应的词典和分词结果。方法简单，跑出来的结果也挺有意思。 1 from random import randint 2 3 4 def segment(text,segs): 5 ... 阅读全文

posted @ 2015-02-15 14:37 colipso 阅读(281) 评论(0) 推荐(0) 编辑

【文本挖掘】模拟退火英文分词

导航

公告