高效词频分析

由于密码泄露越来越普遍,使得各类“密码分析”工具越来越多。比如最近很火的Pipal,由ruby编写的一款程序,可以分析出密码频率TOP N。但实际使用中发现效率较低。

实际上通过简单的bash命令就可以实现上述的功能:

cat password.txt | sort | uniq -c | sort -k1,1nr | head -10

提取password词频TOP10的密码

time cat pass.txt | sort | uniq -c | sort -k1,1nr | head -10 > result.txt
保存提取结果并记录所消耗时间

由于sort是C语言编写,效率远高于Pipal。在数据量较大的词频统计时,差距尤其明显。
实际测试 在虚拟机中两亿条数据获取top 10000 大概50分钟左右。

 

posted @ 2016-04-23 15:43  anything good  阅读(816)  评论(0编辑  收藏  举报
孤 's 博客