统计一下你写过多少代码

 

统计一下你写过多少代码

 

最近整理了一下自己从开始学习编程以来写过的程序和代码,林林总总,花了不少的时间,最后把一些自认为还算不错的代码提交到github上做一个简单的分类和备份。当然我并不奢求它们能成为多好的开源代码,只是希望通过这种方式分享自己的劳动成果罢了。如果大家有兴趣可以访问我的github,欢迎朋友们提出意见和建议。

在我整理代码的时候,突发奇想地想知道自己曾经写过多少行代码。相信手握大量代码的童鞋应该也有类似的想法,于是查阅资料来完成这个目标。

首先,我们需要一点时间做一下准备工作。我们需要将自己写过的程序拷贝到一个文件夹下边,以防我们把一些教程和示例的代码统计进去了,这的确需要不少精力——如果你的代码遍布在你硬盘的各个角落的话。

为了统计代码的行数,我们需要用到linux提供的工具wc(名字有点诡异,呵呵)。

$wc –l *.c *.h

该命令可以将当前目录下的所有以.c.h结尾的文件的行数统计并累加。但是该工具的功能十分有限,它只能操作当前目录下的文件,而不会去递归查询子目录。显然统计大量的工程和文件的行数是不可行的,不过所幸的是我们可以使用find命令递归的查询子目录的文件

$find . –iname “*.[ch]”

该命令可以将当前目录以及子目录下的所有以.c.h.C.H结尾的文件全部列举出来!(有时我们的代码的扩展名命名可能不是太规范,有可能扩展名是大写的,使用-name是大小写敏感查询,使用-iname忽略大小写)。

有了以上的命令,我们想把所有以.c.h.C.H结尾的文件代码统计并累加。借助shell的管道可以轻松实现。

$find . –iname “*.[ch]” | xargs wc -l

管道“|的含义是将前边的命令的输出作为后边指令的输入,而xargs工具将find命令的输出转换为wc命令的参数。

以上便是统计代码行的基本命令原型,如果统计C语言的代码则足够了,但这还不能满足我们的需要。如果读者手头有大量的C#JavaC++、汇编代码的话,使用find提供的功能有限的通配符并不方便。因为我们可能处理的文件格式有:.cs.java.cpp.s.asm等,如果你有很多的ASPJSP这样的网站工程的话,可能还需要.html.css.js等格式的代码(虽然.html文件不像是代码……)。

为了方便处理各种文件格式,我们需要写一段shell脚本。其基本思想是每次只搜索一种格式的文件,然后将所有的搜索结果集合到一个文件中去,最后将该文件内容作为wc命令的参数进行行数统计即可。

#/user/bin/sh

cat /dev/null > info          #清空info

types=("*.asm" "*.s" "*.c" "*.cpp" "*.h" "*.cs" "*.java")    #所有要统计文件类型

for i in ${types[@]}          #遍历每个文件类型

do

find . -iname $i > tmp    #按类型(大小写不敏感)查找,缓存到tmp

cat tmp >> info           #查询结果追加到info

done

sed -i 's/ /\\&/g' info       #处理文件名出现空格的情况

cat info | xargs wc -l        #统计行数

rm info tmp                   #删除临时文件

结合脚本,首先我们需要建立两个临时文件tmpinfo,前者用于记录每个文件类型的查询结果,后者记录所有的查询结果(初始清空)。然后使用types数组记录所有要统计文件扩展名(这里的类型匹配串一定不要重复,否则会重复统计),并使用循环依次使用find命令将结果重定向>)到文件tmp中,然后将tmp追加(>>)到文件info。接着我们使用sed命令对info文件做一下处理——文件内的所有空格前加上反斜杠“\。这是因为如果文件名存在空格的话,将之应用到wc命令中后会导致命令被截断,产生错误,因此需要使用“\对空格转义。最后使用管道将文件内容应用到wc命令的参数,统计即可得到最终结果。

将上述脚本文件保存后,使用chmod命令转换为可执行权限,运行进行行数统计

$chmod +x ./脚本文件

运行命令,在输出的结果中,最后一行一般都会显示如下信息:

{总行数} {总用量}

如果统计出的的代码文件个数较少,最后一行的总行数便是结果。然而wc命令一次处理的文件个数有限(大约3000个左右),当统计文件过多时,它会分批进算总行数!这样最终的总行数其实是每批统计的行数之和!我们可以使用如下命令将每批的行数信息显示出来。

$cat info | xargs wc -l | sort -n

sort -n命令可以将文件按行大小排序,使得所有行数信息集中显示文件尾部。当然更好的是使用如下方式。

$cat info | xargs wc -l > tmp

$grep -rin "^[ ]*[1-9][0-9]*[ ]*总用量$" tmp

grep命令按照每批统计的结果形式识别并输出如下形式。

{行号}: {总行数} {总用量}

当然,我们可以手工的将行数累加起来,得到最终的行数。虽然工作量不大(确实不大,即使linux的内核源码也就十几条数据),但是我们想让它自动完成。

#/user/bin/sh

cat /dev/null > info         #清空info

types=("*.asm" "*.s" "*.c" "*.cpp" "*.h" "*.cs" "*.java")   #所有要统计文件类型

for i in ${types[@]}         #遍历每个文件类型

do

    find . -iname $i > tmp    #按类型(大小写不敏感)查找,缓存到tmp

    cat tmp >> info           #查询结果追加到info

done

sed -i 's/ /\\&/g' info      #处理文件名出现空格的情况

cat info | xargs wc -l > tmp #统计行数输出文件

grep -rin "^[ ]*[1-9][0-9]*[ ]*总用量$" tmp > info    #提取行数信息

let sum=0                    #总行数

while read tag count flag    #取出每一批处理结果的行数

do

    let sum=sum+count         #累加行数

done < info                  #指定读取的文件

echo 总行数=$sum            #显示最终总行数

rm info tmp                  #删除临时文件

相比与之前的脚本,我们把统计文件的行数信息保存在tmp,然后使用grep命令将有效的行数信息保存在info,最后读取info的每一行,取出每一批的行数,累加得到最终结果!而且由于不用向屏幕输出大量的文件路径信息(重定向文件内),脚本可以更快的运行。经测试,对于linux3.5.2内核的源码,该脚本执行时间约2s左右(使用time命令测试,具体情况因机器而异),统计的源码行数为14557019行!统计linux源码行数时, 我们也可以修改types数组,仅统计*.s*.asm*.c*.h文件,因为linux源码里只有C和汇编代码

作者平时使用汇编、C/C++C#Java写过的代码比较多,使用上述脚本统计完全没问题,统计结果为10W+。如果读者还需统计其他类型的文件,可以自行修改types数组(注意不要在数组元素间加逗号!)进行统计,你是否愿意一下自己的代码行数呢?

 

原文地址:https://www.cnblogs.com/fanzhidongyzby/p/3202304.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


在Linux上编写运行C语言程序,经常会遇到程序崩溃、卡死等异常的情况。程序崩溃时最常见的就是程序运行终止,报告 Segmentation fault (core dumped) 错误。而程序卡死一般来源于代码逻辑的缺陷,导致了死循环、死锁等问题。总的来看,常见的程序异常问题一般可以分为 非法内存访
git使用小结很多人可能和我一样,起初对git是一无所知的。我也是因为一次偶然的机会接触到git,并被它强大的功能所蛰伏。git其实就是一种版本控制工具,就像svn一样,但是git是分布式的。我不想给git打广告,我们直入正题——git能帮我们做什么?1)源码版本控制。平常写一写demo程序可能和g
1. 操作系统环境、安装包准备 宿主机:Max OSX 10.10.5 虚拟机:Parallel Desktop 10.1.1 虚拟机操作系统:CentOS 7 x86_64 DVD 1511.iso Oracle:linux.x64_11gR2_database_1of2.zip linux.x6
因为业务系统需求,需要对web服务作nginx代理,在不断的尝试过程中,简单总结了一下常见的nginx代理配置。 1. 最简反向代理配置 在http节点下,使用upstream配置服务地址,使用server的location配置代理映射。 upstream my_server { server 10
Linux模块机制浅析 Linux允许用户通过插入模块,实现干预内核的目的。一直以来,对linux的模块机制都不够清晰,因此本文对内核模块的加载机制进行简单地分析。 模块的Hello World! 我们通过创建一个简单的模块进行测试。首先是源文件main.c和Makefile。 f...
一、Hadoop HA的Web页面访问 Hadoop开启HA后,会同时存在两个Master组件提供服务,其中正在使用的组件称为Active,另一个作为备份称为Standby,例如HDFS的NameNode、YARN 的ResourceManager。HDFS的web页面只有通过Active的Name
一个简单的通用Makefile实现Makefile是Linux下程序开发的自动化编译工具,一个好的Makefile应该准确的识别编译目标与源文件的依赖关系,并且有着高效的编译效率,即每次重新make时只需要处理那些修改过的文件即可。Makefile拥有很多复杂的功能,这里不可能也没必要一一介绍,为了
Linux内核源码分析方法一、内核源码之我见Linux内核代码的庞大令不少人“望而生畏”,也正因为如此,使得人们对Linux的了解仅处于泛泛的层次。如果想透析Linux,深入操作系统的本质,阅读内核源码是最有效的途径。我们都知道,想成为优秀的程序员,需要大量的实践和代码的编写。编程固然重要,但是往往
题记:自从接触到“跳板机”的概念后,一直就被烦不胜烦的机器名,ip地址,用户名,密码折腾的死去活来,心说能有个小精灵随时帮我输入那些重复的登录信息就好了。我见过最挫的方式就是用记事本把一堆机器的ip、登录用户、密码记录下来,每次登录机器就像是一场战斗:打开笔记本 勾选复制 写ssh命令 登录 再打开
统计一下你写过多少代码最近整理了一下自己从开始学习编程以来写过的程序和代码,林林总总,花了不少的时间,最后把一些自认为还算不错的代码提交到github上做一个简单的分类和备份。当然我并不奢求它们能成为多好的开源代码,只是希望通过这种方式分享自己的劳动成果罢了。如果大家有兴趣可以访问我的github,
一直以来被Linux的hostname和fqdn(Fully Qualified Domain Name)困惑了好久,今天专门抽时间把它们的使用细节弄清了。 一、设置hostname/fqdn&#xD;在Linux系统内设置hostname很简单,如: $ hostname florian 如果...
Linux的原子操作与同步机制 并发问题 现代操作系统支持多任务的并发,并发在提高计算资源利用率的同时也带来了资源竞争的问题。例如C语言语句“count++”在未经编译器优化时生成的汇编代码为。 当操作系统内存在多个进程同时执行这段代码时,就可能带来并发问题。 假设count变量初始值为0。进程1
最简git Server配置如何保持多台计算机的项目代码的同步更新呢?通过在一个公用计算机上开启git服务,任何能与该计算机互联的终端都可以同步最新的项目代码。每个终端所负责的就是下载代码更新,修改代码,提交代码更新,这些工作产生的变化能全部反应到git服务器上。同时,这么做也能避免使用github
建议收藏!!!Linux 服务器必备的安全设置~
QQ 用 Electron 重构后,终实现 Linux、macOS、Windows 三端架构统一!
Shell 分析日志文件高效命令,超级好用!
Linux下的Docker容器网络:如何设置容器间的网络连接和通信?
Linux 服务器必备的安全设置,建议收藏!!!
以为很熟悉 Linux,万万没想到在生产环境翻车了.....
Linux 或 Windows 上实现端口映射