2014 年 3月 2 日随笔档案 - 磨磨唧唧

2014年3月2日

分析一个文本（英文文章）（300k—500k）中的词出现的频率，并且把频率最高的10个词打印出来。

摘要：最近老师出一个题目：分析一个文本（英文文章）（300k—500k）中的词出现的频率，并且把频率最高的10个词打印出来。要分析每个词的频率，肯定要先把每个单词读出来并存储起来，用数据库存肯定是没那个必要的，那么就输涉及怎么存储的问题。考虑到（300—500k）的文章，单词量不是像原来写程序中所读取的那样少，且读取以后要遍历多次进行单词的匹配，以便统计相同单词的个数，所以就要考虑一个效率的问题，每匹配一个词就要把所有的单词遍历一遍显然是效率不高的。在这里我用的方法是把长度相同的单词分在一块，遍历时就在相同长度的单词里找，这样就大大减小了匹配量，在一定程度上提升了效率。下来是怎么实现的问题，首先排除阅读全文

posted @ 2014-03-02 23:16 磨磨唧唧阅读(412) 评论(0) 推荐(0) 编辑

磨磨唧唧

公告