摘要: NLP的文本分类过程中,大多会统计文章的词频,这是分类的重要依据之一。词频是由一个pair组成的,word是keyfrequece是value。用什么方法统计最好,当然是map。用vector,list也可以实现,但是它们基于关键字的检索效率没有map高,map一般是用rb-Tree实现的,查找效率是O(log(n)),list,vector都是线性的,查找复杂度是O(n)。  先上代码。headercpp[代码]  实现的方式很简单,首先把从文件里load出text,然后去掉里面的符号,最后扫描一遍文件,遇着单词就塞到map里面.这句话太好用了。一句话实现插入map,如果有就增加value, 阅读全文
posted @ 2010-12-25 21:15 霞光照耀 阅读(968) 评论(0) 推荐(0) 编辑