统计一下你写过多少代码

统计一下你写过多少代码

最近整理了一下自己从开始学习编程以来写过的程序和代码，林林总总，花了不少的时间，最后把一些自认为还算不错的代码提交到github上做一个简单的分类和备份。当然我并不奢求它们能成为多好的开源代码，只是希望通过这种方式分享自己的劳动成果罢了。如果大家有兴趣可以访问我的github，欢迎朋友们提出意见和建议。

在我整理代码的时候，突发奇想地想知道自己曾经写过多少行代码。相信手握大量代码的童鞋应该也有类似的想法，于是查阅资料来完成这个目标。

首先，我们需要一点时间做一下准备工作。我们需要将自己写过的程序拷贝到一个文件夹下边，以防我们把一些教程和示例的代码也统计进去了，这的确需要不少精力——如果你的代码遍布在你硬盘的各个角落的话。

为了统计代码的行数，我们需要用到linux提供的工具wc（名字有点‘诡异’，呵呵）。

$wc –l *.c *.h

该命令可以将当前目录下的所有以.c、.h结尾的文件的行数统计并累加。但是该工具的功能十分有限，它只能操作当前目录下的文件，而不会去递归查询子目录。显然统计大量的工程和文件的行数是不可行的，不过所幸的是我们可以使用find命令递归的查询子目录的文件。

$find . –iname “*.[ch]”

该命令可以将当前目录以及子目录下的所有以.c、.h、.C、.H结尾的文件全部列举出来！（有时我们的代码的扩展名命名可能不是太规范，有可能扩展名是大写的，使用-name是大小写敏感查询，使用-iname忽略大小写）。

有了以上的命令，我们想把所有以.c、.h、.C、.H结尾的文件的代码行统计并累加。借助shell的管道可以轻松实现。

$find . –iname “*.[ch]” | xargs wc -l

管道“|”的含义是将前边的命令的输出作为后边指令的输入，而xargs工具将find命令的输出转换为wc命令的参数。

以上便是统计代码行的基本命令原型，如果统计C语言的代码则足够了，但这还不能满足我们的需要。如果读者手头有大量的C#、Java、C++、汇编代码的话，使用find提供的功能有限的通配符并不方便。因为我们可能处理的文件格式有：.cs、.java、.cpp、.s、.asm等，如果你有很多的ASP、JSP这样的网站工程的话，可能还需要.html、.css、.js等格式的代码（虽然.html文件不像是代码……）。

为了方便处理各种文件格式，我们需要写一段shell脚本。其基本思想是每次只搜索一种格式的文件，然后将所有的搜索结果集合到一个文件中去，最后将该文件的内容作为wc命令的参数进行行数统计即可。

#/user/bin/sh

cat /dev/null > info #清空info

types=("*.asm" "*.s" "*.c" "*.cpp" "*.h" "*.cs" "*.java") #所有要统计的文件类型

for i in ${types[@]} #遍历每个文件类型

find . -iname $i > tmp #按类型（大小写不敏感）查找，缓存到tmp

cat tmp >> info #将查询结果追加到info

done

sed -i 's/ /\\&/g' info #处理文件名出现空格的情况

cat info | xargs wc -l #统计行数

rm info tmp #删除临时文件

结合脚本，首先我们需要建立两个临时文件tmp和info，前者用于记录每个文件类型的查询结果，后者记录所有的查询结果（初始清空）。然后使用types数组记录所有要统计的文件扩展名（这里的类型匹配串一定不要重复，否则会重复统计），并使用循环依次使用find命令将结果重定向（>）到文件tmp中，然后将tmp追加（>>）到文件info。接着我们使用sed命令对info文件做一下处理——将文件内的所有空格前加上反斜杠“\”。这是因为如果文件名存在空格的话，将之应用到wc命令中后会导致命令被截断，产生错误，因此需要使用“\”对空格转义。最后使用管道将文件内容应用到wc命令的参数，统计即可得到最终结果。

将上述脚本文件保存后，使用chmod命令转换为可执行权限，运行进行行数统计。

$chmod +x ./脚本文件名

运行命令，在输出的结果中，最后一行一般都会显示如下信息：

{总行数} {总用量}

如果统计出的的代码文件个数较少，最后一行的总行数便是结果。然而wc命令一次处理的文件个数有限（大约3000个左右），当统计的文件过多时，它会分批进算总行数！这样最终的总行数其实是每批统计的行数之和！我们可以使用如下命令将每批的行数信息显示出来。

$cat info | xargs wc -l | sort -n

sort -n命令可以将文件按行大小排序，使得所有行数信息集中显示在文件尾部。当然更好的是使用如下方式。

$cat info | xargs wc -l > tmp

$grep -rin "^[ ]*[1-9][0-9]*[ ]*总用量$" tmp

grep命令按照每批统计的结果形式识别并输出如下形式。

{行号}: {总行数} {总用量}

当然，我们可以手工的将行数累加起来，得到最终的行数。虽然工作量不大（确实不大，即使linux的内核源码也就十几条数据），但是我们想让它自动完成。

#/user/bin/sh

cat /dev/null > info #清空info

types=("*.asm" "*.s" "*.c" "*.cpp" "*.h" "*.cs" "*.java") #所有要统计的文件类型

for i in ${types[@]} #遍历每个文件类型

find . -iname $i > tmp #按类型（大小写不敏感）查找，缓存到tmp

cat tmp >> info #将查询结果追加到info

done

sed -i 's/ /\\&/g' info #处理文件名出现空格的情况

cat info | xargs wc -l > tmp #统计行数，输出到文件

grep -rin "^[ ]*[1-9][0-9]*[ ]*总用量$" tmp > info #提取行数信息

let sum=0 #总行数

while read tag count flag #取出每一批处理结果的行数

let sum=sum+count #累加行数

done < info #指定读取的文件

echo 总行数=$sum行 #显示最终总行数

rm info tmp #删除临时文件

相比与之前的脚本，我们把统计的文件的行数信息保存在tmp，然后使用grep命令将有效的行数信息保存在info，最后读取info的每一行，取出每一批的行数，累加得到最终结果！而且由于不用向屏幕输出大量的文件路径信息（重定向到文件内），脚本可以更快的运行。经测试，对于linux3.5.2内核的源码，该脚本执行时间约2s左右（使用time命令测试，具体情况因机器而异），统计的源码行数为14557019行！统计linux源码行数时，我们也可以修改types数组，仅统计*.s、*.asm、*.c、*.h文件，因为linux源码里只有C和汇编代码。

作者平时使用汇编、C/C++、C#、Java写过的代码比较多，使用上述脚本统计完全没问题，统计结果为10W+。如果读者还需统计其他类型的文件，可以自行修改types数组（注意不要在数组元素间加逗号！）进行统计，你是否愿意“秀”一下自己的代码行数呢？

统计一下你写过多少代码

相关推荐