摘要: 最近老师出一个题目:分析一个文本(英文文章)(300k—500k)中的词出现的频率,并且把频率最高的10个词打印出来。要分析每个词的频率,肯定要先把每个单词读出来并存储起来,用数据库存肯定是没那个必要的,那么就输涉及怎么存储的问题。考虑到(300—500k)的文章,单词量不是像原来写程序中所读取的那样少,且读取以后要遍历多次进行单词的匹配,以便统计相同单词的个数,所以就要考虑一个效率的问题,每匹配一个词就要把所有的单词遍历一遍显然是效率不高的。在这里我用的方法是把长度相同的单词分在一块,遍历时就在相同长度的单词里找,这样就大大减小了匹配量,在一定程度上提升了效率。下来是怎么实现的问题,首先排除 阅读全文
posted @ 2014-03-02 23:16 磨磨唧唧 阅读(412) 评论(0) 推荐(0) 编辑