摘要: 词频统计程序是一个相当简单的程序:它读一个文件夹里的所有指定类型的文件,统计其中出现的英文单词的次数,并排序输出。但是它却有很大的优化余地,甚至可以分布式到多台机器中(Map-Reduce模型)。但是,在单机中搞这么复杂反而会增加运行时间和内存。我们希望将它改造成多线程。但是,分词过程和统计过程若分布到多个线程中,则对内存的锁会增加,因为大部分算法的时间效率都是O(n)的,而且对内存的操作很频繁,所以效率反而会降低。在单机中,若为单线程运行,则IO操作(读写文件)时不能进行CPU运算,同理CPU进行运算时不能进行IO操作。所以一种很明显的优化方式就是,把IO操作和CPU操作分离到两个线程中去。 阅读全文
posted @ 2012-09-25 21:33 Shine Team 阅读(1583) 评论(3) 推荐(3) 编辑
摘要: 听说按照T博流量算分,怒转至T博。一、首先是对于需求和基本方案:重新列一下需求,国行中文版。 Word 单词定义: i.至少含有三个字符、且开头三个字符必须是字母; eg.hao123 == word;123hao!=word ii.不包含任何非字母或者数字的字符; 助教后来说这个本质就是认为除了字母和数字以外都算分隔符的意思。 iii.对于同一个单词的计数,大小写不敏感; eg.File == FILE == file 扩展模式下进一步: 两个单词仅有尾部数字不同时,认为是同一个单词。打印时并不忽略数字。 eg.... 阅读全文
posted @ 2012-09-25 21:16 Shine Team 阅读(435) 评论(2) 推荐(0) 编辑
摘要: 大家好,我是迟到的shine队员林璐...我是来自100616班的女生,略会c#,试过flex做界面,但是不堪入眼。我的个人博客主页是:http://www.cnblogs.com/linlu1142/希望能在队里向大牛学习,走一遍SE开发的流程,积累实战经验。 阅读全文
posted @ 2012-09-25 17:19 Shine Team 阅读(255) 评论(0) 推荐(0) 编辑