使用 GNU 并行提高 awk 性能

如何解决使用 GNU 并行提高 awk 性能

我有一些包含 .csv.gz 文件的子目录。使用 awk，我可以根据第 1 列和第 2 列中的值过滤文件，并将结果转储到单个 .csv.gz 文件中。

 pigz -rdc /path/to/dir/ | awk -F,'{ if(($1>100) && ($2>100)) {print} }' | pigz > output.csv.gz

多亏了 pigz，bash 管道的前端和末端都受益于并行处理。我想知道如何使用 GNU 并行工具并行执行 awk 作业。

解决方法

doit() {
  pigz -dc "$1" | awk -F,'{ if(($1>100) && ($2>100)) {print} }'
}
export -f doit

find /path/to/dir -name '*.gz' | parallel doit | pigz > output.csv.gz