2013 年 6月 14 日随笔档案 - 三度空间

2013年6月14日

摘要：中文全文检索中很重要的一个环节就是分词，而一般分词都是基于字典的，特别是对于特定的业务，需要从特定的语料库中抽出高频有意义的词来生成字典。这系列文章，就一步一步来实现一个从大规模语料库正抽取出高频词的程序。抽词的过程如下图：本文先讲解“子串字典序排序”部分，也就是字典序排序部分。本文使用两种算法：快排和基数排序，两种算法各有应用场景，快排在分析长度20万字符串时所用的时间明显低于基数排序，但是，超过时，基数排序明显有优势；本文仅仅对于实现的算法做简单分析和实现，真正生成环境中，将引入多线程，分布式处理等优化手段，这里不提及。这里，我要先用通俗一些的话语来解释一些概念，有不正确的地方，欢迎指阅读全文

posted @ 2013-06-14 23:00 三度空间阅读(1984) 评论(5) 推荐(3) 编辑

公告