2010 年 12月 25 日随笔档案 - 霞光照耀

2010年12月25日

摘要： NLP的文本分类过程中，大多会统计文章的词频，这是分类的重要依据之一。词频是由一个pair组成的，word是keyfrequece是value。用什么方法统计最好，当然是map。用vector，list也可以实现，但是它们基于关键字的检索效率没有map高，map一般是用rb-Tree实现的，查找效率是O(log(n))，list，vector都是线性的，查找复杂度是O(n)。　　先上代码。headercpp[代码]　　实现的方式很简单，首先把从文件里load出text，然后去掉里面的符号，最后扫描一遍文件，遇着单词就塞到map里面.这句话太好用了。一句话实现插入map，如果有就增加value，阅读全文

posted @ 2010-12-25 21:15 霞光照耀阅读(968) 评论(0) 推荐(0) 编辑

霞光照耀

公告