2014 年 2月 28 日随笔档案 - 苏林东

2014年2月28日

摘要：常常遇到这样的一个问题：在海量数据中找出出现频率最高的前K个数，或者从海量数据中找出最大的前K个数，这类问题通常称为“top K”问题，如：在搜索引擎中，统计搜索最热门的10个查询词；在歌曲库中统计下载率最高的前10首歌等等。①：本人初次学习软件工程，近来便遇到一个类似的问题，问题是关于统计一片文章中统计出现频率最高的前十个单词。其实刚拿到这个程序时，也觉得很容易：无非是文件的导入、单词的分类、以及排序算法。所以便开始编程（因为大学没有养成需求设计的习惯，更加注重编写代码），所以，编着编着便越遍越多，仔细看来不仅代码冗余，而且结构混乱。正如师所说，自己的代码不仅别人看不懂，自己几天后都不知道. 阅读全文

posted @ 2014-02-28 20:01 苏林东阅读(931) 评论(4) 推荐(2) 编辑

苏林东

公告