linux – 根据Bash中的行内容加速大文本文件的分离

我有一个非常大的文本文件(大约20 GB和3亿行),其中包含由制表符分隔的三列：

word1 word2 word3
word1 word2 word3
word1 word2 word3
word1 word2 word3

word1,word2和word3在每一行中都不同. word3指定行的类,并经常为不同的行重复(具有数千个不同的值).目标是通过行类(word3)分隔文件.即对于所有行,word1和word2应存储在名为word3的文件中.例如,对于该行：

a b c

字符串“a b”应该附加到名为c的文件中.

现在我知道如何使用while循环,逐行读取文件,并为每一行附加适当的文件：

while IFS='' read -r line || [[ -n "$line" ]]; do
    # Variables
    read -a line_array <<< ${line}
    word1=${line_array[0]}
    word2=${line_array[1]}
    word3=${line_array[2]}

    # Adding word1 and word2 to file word3
    echo "${word1} ${word2}" >> ${word3}  
done < "inputfile"

它工作,但非常慢(即使我有一个带SSD的快速工作站).怎么能加快速度呢？我已经尝试在/ dev / shm中执行此过程,并将文件拆分为10个并且为每个文件并行运行上面的脚本.但它仍然很慢.有没有办法进一步加快速度？

解决方法

让我们生成一个示例文件：

$seq -f "%.0f" 3000000 | awk -F $'\t' '{print $1 FS "Col_B" FS int(2000*rand())}' >file

这会在第3列中生成一个300万行文件,其中包含2,000个不同的值,类似于：

$head -n 3 file; echo "..."; tail -n 3 file
1   Col_B   1680
2   Col_B   788
3   Col_B   1566
...
2999998 Col_B   1562
2999999 Col_B   1803
3000000 Col_B   1252

使用简单的awk,您可以生成以这种方式描述的文件：

$time awk -F $'\t' '{ print $1 " " $2 >> $3; close($3) }' file
real    3m31.011s
user    0m25.260s
sys     3m0.994s

这样awk将在大约3分31秒内生成2,000个组文件.肯定比Bash快,但是通过第三列预分配文件并一次写入每个组文件可以更快.

您可以在管道中使用Unix排序实用程序,并将输出提供给可将已排序组分离到不同文件的脚本.将-s选项与sort一起使用,第三个字段的值将是唯一将更改行顺序的字段.

由于我们可以假设sort已根据文件的第3列将文件分区为组,因此脚本只需检测该值何时更改：

$time sort -s -k3 file | awk -F $'\t' 'fn != ($3 "") { close(fn); fn = $3 } { print $1 " " $2 > fn }'
real    0m4.727s
user    0m5.495s
sys     0m0.541s

由于预分配获得的效率,相同的净过程在5秒内完成.

如果您确定第3列中的“单词”仅为ascii(即,您不需要处理UTF-8),则可以将LC_ALL = C设置为additional speed：

$time LC_ALL=C sort -s -k3 file | awk -F $'\t' 'fn != ($3 "") { close(fn); fn = $3 } { print $1 " " $2 > fn }'
real    0m3.801s
user    0m3.796s
sys     0m0.479s

来自评论：

1)请添加一行来解释为什么我们需要fn！=($3“”)中的括号表达式：

fn！=($3“”){action}的awk结构是fn！= $3 ||的有效快捷方式fn ==“”{action}使用您认为最具可读性的那个.

2)如果文件大于可用内存,不确定这是否也有效,因此这可能是一个限制因素：

我运行了第一个和最后一个awk,包含3亿条记录和20,000个输出文件.排序的最后一个在12分钟内完成了任务.第一次花了10个小时……

可能是排序版本实际上更好地扩展,因为打开附加和关闭20,000个文件需要一段时间.组合和传输类似数据更有效.

3)我之前考虑过排序,但后来觉得它可能不是最快的,因为我们必须用这种方法读取整个文件两次：

这是纯粹随机数据的情况;如果实际数据有些有序,则需要权衡两次读取文件.随机数据越少,第一个awk就越快.但是,还需要时间来确定文件是否已排序.如果您知道文件主要是排序的,请使用第一个;如果它可能有些混乱,请使用最后一个.

linux – 根据Bash中的行内容加速大文本文件的分离

解决方法

相关推荐