转:统计代码行数有几种写法?

原文地址:http://www.keakon.net/2011/04/15/%E7%BB%9F%E8%AE%A1%E4%BB%A3%E7%A0%81%E8%A1%8C%E6%95%B0%E6%9C%89%E5%87%A0%E7%A7%8D%E5%86%99%E6%B3%95%EF%BC%9F

 

昨晚突然想统计一下项目的代码行数,不过IDE没有提供这个功能,于是只能自己实现了。
我最先想到的就是用Python了。方法很多,例如用os.walk()来遍历目录,然后过滤文件后缀名为源代码的(如py、html、js和css),再按行读取每个符合的文件,合计所有文件的行数。粗略看上去要2个循环和一个正则表达式。如果不按行读取,而是直接读完再查找'\n'的数目,则可以减少一个循环,不过当需求变更为不统计空行时,它就变得不够通用了。
但又想到自己在用Mac OS X,这种问题交给shell来解决不是更轻量级么?幸运的是,很快我就找到了遍历目录的find和统计行数的wc命令。
仍沿用上述方法的话,就类似于这样的结构了:

for file in `find $path`
do
  wc -l "$file"
done

不过上述写法实际上只统计了每个文件的行数,而没有统计总和。由于wc的结果包含了文件名,我不得不用sed来过滤出行数,再用expr求值并累加起来,感觉并不比Python轻松。
但首先还是把for去掉吧,看上去比较繁琐。翻了下文档发现有个-exec参数,于是便能写成这样了:

find $path -exec wc -l {} \;


接下来忘掉那个臃肿的sed。既然wc的结果由2部分组成,第一部分是行数,那么直接用awk命令来累加第一部分即可:

find $path -exec wc -l {} \; | awk '{lines += $1} END {print lines}'


虽然结果是拿到了,可总感觉效率低了点。于是想到可以直接把所有文件合并起来,当成一个整体传给wc:

find $path | xargs cat | wc -l


这下效率果然高多了,瞬间就得到了结果,不过内存占用或许会比较多。于是又看了下wc的文档,发现它可以接受多个文件参数,最后会输出总行数,于是cat也就可以省略了:

find $path | xargs wc -l


再交换下wc和find的位置,连xargs也能省略了:

wc -l `find $path`


这下应该不需要担忧性能了,于是再处理一下过滤部分,让它只统计py、html、js和css文件:

wc -l `find $path -regex ".*\.\(py\|html\|js\|css\)"`


可恶的是这段代码可耻地失败了,它能在Linux上正常运行,Mac OS X却不认账⋯
不经意间我发现BSD的find对正则表达式的处理和Linux是有差异的,这样写就OK了:

wc -l `find -E $path -regex ".*\.(py|html|js|css)"`


当然,即使不懂这些差异,用grep也是可以的:

wc -l `find $path | grep ".*\.\(py\|html\|js\|css\)"`


不得不说UNIX Shell实在太强大了,完成这么简单的任务都能有如此多种做法,不知道你还能想出多少种呢~

posted @ 2012-04-12 01:00  Alex~  阅读(2476)  评论(0编辑  收藏  举报