转：统计代码行数有几种写法？

原文地址：http://www.keakon.net/2011/04/15/%E7%BB%9F%E8%AE%A1%E4%BB%A3%E7%A0%81%E8%A1%8C%E6%95%B0%E6%9C%89%E5%87%A0%E7%A7%8D%E5%86%99%E6%B3%95%EF%BC%9F

昨晚突然想统计一下项目的代码行数，不过IDE没有提供这个功能，于是只能自己实现了。
我最先想到的就是用Python了。方法很多，例如用os.walk()来遍历目录，然后过滤文件后缀名为源代码的（如py、html、js和css），再按行读取每个符合的文件，合计所有文件的行数。粗略看上去要2个循环和一个正则表达式。如果不按行读取，而是直接读完再查找'\n'的数目，则可以减少一个循环，不过当需求变更为不统计空行时，它就变得不够通用了。
但又想到自己在用Mac OS X，这种问题交给shell来解决不是更轻量级么？幸运的是，很快我就找到了遍历目录的find和统计行数的wc命令。
仍沿用上述方法的话，就类似于这样的结构了：

for file in `find $path`
do
  wc -l "$file"
done

不过上述写法实际上只统计了每个文件的行数，而没有统计总和。由于wc的结果包含了文件名，我不得不用sed来过滤出行数，再用expr求值并累加起来，感觉并不比Python轻松。
但首先还是把for去掉吧，看上去比较繁琐。翻了下文档发现有个-exec参数，于是便能写成这样了：

find $path -exec wc -l {} \;

接下来忘掉那个臃肿的sed。既然wc的结果由2部分组成，第一部分是行数，那么直接用awk命令来累加第一部分即可：

find $path -exec wc -l {} \; | awk '{lines += $1} END {print lines}'

虽然结果是拿到了，可总感觉效率低了点。于是想到可以直接把所有文件合并起来，当成一个整体传给wc：

find $path | xargs cat | wc -l

这下效率果然高多了，瞬间就得到了结果，不过内存占用或许会比较多。于是又看了下wc的文档，发现它可以接受多个文件参数，最后会输出总行数，于是cat也就可以省略了：

find $path | xargs wc -l

再交换下wc和find的位置，连xargs也能省略了：

wc -l `find $path`

这下应该不需要担忧性能了，于是再处理一下过滤部分，让它只统计py、html、js和css文件：

wc -l `find $path -regex ".*\.\(py\|html\|js\|css\)"`

可恶的是这段代码可耻地失败了，它能在Linux上正常运行，Mac OS X却不认账⋯
不经意间我发现BSD的find对正则表达式的处理和Linux是有差异的，这样写就OK了：

wc -l `find -E $path -regex ".*\.(py|html|js|css)"`

当然，即使不懂这些差异，用grep也是可以的：

wc -l `find $path | grep ".*\.\(py\|html\|js\|css\)"`

不得不说UNIX Shell实在太强大了，完成这么简单的任务都能有如此多种做法，不知道你还能想出多少种呢～

posted @ 2012-04-12 01:00 Alex~ 阅读(2506) 评论(0) 收藏举报

刷新页面返回顶部

Alex Blog

转：统计代码行数有几种写法？

公告