微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

linux – 根据Bash中的行内容加速大文本文件的分离

我有一个非常大的文本文件(大约20 GB和3亿行),其中包含由制表符分隔的三列:
word1 word2 word3
word1 word2 word3
word1 word2 word3
word1 word2 word3

word1,word2和word3在每一行中都不同. word3指定行的类,并经常为不同的行重复(具有数千个不同的值).目标是通过行类(word3)分隔文件.即对于所有行,word1和word2应存储在名为word3的文件中.例如,对于该行:

a b c

字符串“a b”应该附加到名为c的文件中.

现在我知道如何使用while循环,逐行读取文件,并为每一行附加适当的文件

while IFS='' read -r line || [[ -n "$line" ]]; do
    # Variables
    read -a line_array <<< ${line}
    word1=${line_array[0]}
    word2=${line_array[1]}
    word3=${line_array[2]}

    # Adding word1 and word2 to file word3
    echo "${word1} ${word2}" >> ${word3}  
done < "inputfile"

它工作,但非常慢(即使我有一个带SSD的快速工作站).怎么能加快速度呢?我已经尝试在/ dev / shm中执行此过程,并将文件拆分为10个并且为每个文件并行运行上面的脚本.但它仍然很慢.有没有办法进一步加快速度?

解决方法

让我们生成一个示例文件
$seq -f "%.0f" 3000000 | awk -F $'\t' '{print $1 FS "Col_B" FS int(2000*rand())}' >file

这会在第3列中生成一个300万行文件,其中包含2,000个不同的值,类似于:

$head -n 3 file; echo "..."; tail -n 3 file
1   Col_B   1680
2   Col_B   788
3   Col_B   1566
...
2999998 Col_B   1562
2999999 Col_B   1803
3000000 Col_B   1252

使用简单的awk,您可以生成以这种方式描述的文件

$time awk -F $'\t' '{ print $1 " " $2 >> $3; close($3) }' file
real    3m31.011s
user    0m25.260s
sys     3m0.994s

这样awk将在大约3分31秒内生成2,000个组文件.肯定比Bash快,但是通过第三列预分配文件并一次写入每个组文件可以更快.

您可以在管道中使用Unix排序实用程序,并将输出提供给可将已排序组分离到不同文件的脚本.将-s选项与sort一起使用,第三个字段的值将是唯一将更改行顺序的字段.

由于我们可以假设sort已根据文件的第3列将文件分区为组,因此脚本只需检测该值何时更改:

$time sort -s -k3 file | awk -F $'\t' 'fn != ($3 "") { close(fn); fn = $3 } { print $1 " " $2 > fn }'
real    0m4.727s
user    0m5.495s
sys     0m0.541s

由于预分配获得的效率,相同的净过程在5秒内完成.

如果您确定第3列中的“单词”仅为ascii(即,您不需要处理UTF-8),则可以将LC_ALL = C设置为additional speed

$time LC_ALL=C sort -s -k3 file | awk -F $'\t' 'fn != ($3 "") { close(fn); fn = $3 } { print $1 " " $2 > fn }'
real    0m3.801s
user    0m3.796s
sys     0m0.479s

来自评论

1)请添加一行来解释为什么我们需要fn!=($3“”)中的括号表达式:

fn!=($3“”){action}的awk结构是fn!= $3 ||的有效快捷方式fn ==“”{action}使用您认为最具可读性的那个.

2)如果文件大于可用内存,不确定这是否也有效,因此这可能是一个限制因素:

我运行了第一个和最后一个awk,包含3亿条记录和20,000个输出文件.排序的最后一个在12分钟内完成了任务.第一次花了10个小时……

可能是排序版本实际上更好地扩展,因为打开附加和关闭20,000个文件需要一段时间.组合和传输类似数据更有效.

3)我之前考虑过排序,但后来觉得它可能不是最快的,因为我们必须用这种方法读取整个文件两次:

这是纯粹随机数据的情况;如果实际数据有些有序,则需要权衡两次读取文件.随机数据越少,第一个awk就越快.但是,还需要时间来确定文件是否已排序.如果您知道文件主要是排序的,请使用第一个;如果它可能有些混乱,请使用最后一个.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


在Linux上编写运行C语言程序,经常会遇到程序崩溃、卡死等异常的情况。程序崩溃时最常见的就是程序运行终止,报告 Segmentation fault (core dumped) 错误。而程序卡死一般来源于代码逻辑的缺陷,导致了死循环、死锁等问题。总的来看,常见的程序异常问题一般可以分为 非法内存访
git使用小结很多人可能和我一样,起初对git是一无所知的。我也是因为一次偶然的机会接触到git,并被它强大的功能所蛰伏。git其实就是一种版本控制工具,就像svn一样,但是git是分布式的。我不想给git打广告,我们直入正题——git能帮我们做什么?1)源码版本控制。平常写一写demo程序可能和g
1. 操作系统环境、安装包准备 宿主机:Max OSX 10.10.5 虚拟机:Parallel Desktop 10.1.1 虚拟机操作系统:CentOS 7 x86_64 DVD 1511.iso Oracle:linux.x64_11gR2_database_1of2.zip linux.x6
因为业务系统需求,需要对web服务作nginx代理,在不断的尝试过程中,简单总结了一下常见的nginx代理配置。 1. 最简反向代理配置 在http节点下,使用upstream配置服务地址,使用server的location配置代理映射。 upstream my_server { server 10
Linux模块机制浅析 Linux允许用户通过插入模块,实现干预内核的目的。一直以来,对linux的模块机制都不够清晰,因此本文对内核模块的加载机制进行简单地分析。 模块的Hello World! 我们通过创建一个简单的模块进行测试。首先是源文件main.c和Makefile。 f...
一、Hadoop HA的Web页面访问 Hadoop开启HA后,会同时存在两个Master组件提供服务,其中正在使用的组件称为Active,另一个作为备份称为Standby,例如HDFS的NameNode、YARN 的ResourceManager。HDFS的web页面只有通过Active的Name
一个简单的通用Makefile实现Makefile是Linux下程序开发的自动化编译工具,一个好的Makefile应该准确的识别编译目标与源文件的依赖关系,并且有着高效的编译效率,即每次重新make时只需要处理那些修改过的文件即可。Makefile拥有很多复杂的功能,这里不可能也没必要一一介绍,为了
Linux内核源码分析方法一、内核源码之我见Linux内核代码的庞大令不少人“望而生畏”,也正因为如此,使得人们对Linux的了解仅处于泛泛的层次。如果想透析Linux,深入操作系统的本质,阅读内核源码是最有效的途径。我们都知道,想成为优秀的程序员,需要大量的实践和代码的编写。编程固然重要,但是往往
题记:自从接触到“跳板机”的概念后,一直就被烦不胜烦的机器名,ip地址,用户名,密码折腾的死去活来,心说能有个小精灵随时帮我输入那些重复的登录信息就好了。我见过最挫的方式就是用记事本把一堆机器的ip、登录用户、密码记录下来,每次登录机器就像是一场战斗:打开笔记本 勾选复制 写ssh命令 登录 再打开
统计一下你写过多少代码最近整理了一下自己从开始学习编程以来写过的程序和代码,林林总总,花了不少的时间,最后把一些自认为还算不错的代码提交到github上做一个简单的分类和备份。当然我并不奢求它们能成为多好的开源代码,只是希望通过这种方式分享自己的劳动成果罢了。如果大家有兴趣可以访问我的github,