高效词频分析
由于密码泄露越来越普遍,使得各类“密码分析”工具越来越多。比如最近很火的Pipal,由ruby编写的一款程序,可以分析出密码频率TOP N。但实际使用中发现效率较低。
实际上通过简单的bash命令就可以实现上述的功能:
cat password.txt | sort | uniq -c | sort -k1,1nr | head -10
提取password词频TOP10的密码
time cat pass.txt | sort | uniq -c | sort -k1,1nr | head -10 >
result.txt
保存提取结果并记录所消耗时间
由于sort是C语言编写,效率远高于Pipal。在数据量较大的词频统计时,差距尤其明显。
实际测试 在虚拟机中两亿条数据获取top 10000 大概50分钟左右。