技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

在linux中排序多个文件

时间：2020-06-02分类：Linux作者：编程之家

我有多个(很多)文件;每个都非常大：

file0.txt
file1.txt
file2.txt

我不想将它们加入到单个文件中,因为生成的文件将是10 Gigs.每个文件中的每一行包含一个40字节的字符串.这些字符串现在已经很好地排序了(大约1:10步骤是值的减少而不是增加).

我想订购这些线. (如果可能就位？)这意味着file0.txt末尾的一些行将被移动到file1.txt的开头,反之亦然.

我正在使用Linux并且对它很新.我知道单个文件的sort命令,但我想知道是否有办法对多个文件进行排序.或者也许有一种方法可以制作一个由较小的文件制作的伪文件,linux会将其视为单个文件.

我所知道的可以做到：
我可以单独对每个文件进行排序并读入file1.txt以查找大于file0.txt中最大值的值(并且类似地从file0.txt的末尾抓取行),join然后排序..但这很痛苦并假设file2.txt中没有值属于file0.txt(但在我的情况下极不可能)

编辑

要清楚,如果文件看起来像这样：

f0.txt
DDD
XXX
AAA

f1.txt
BBB
FFF
CCC

f2.txt
EEE
YYY
ZZZ

我要这个：

f0.txt
AAA
BBB
CCC

f1.txt
DDD
EEE
FFF

f2.txt
XXX
YYY
ZZZ

解决方法

我不知道一个命令在进行就地排序,但我认为更快的“合并排序”是可能的：

for file in *.txt; do
    sort -o $file $file
done
sort -m *.txt | split -d -l 1000000 - output

> for循环中的排序可确保对输入文件的内容进行排序.如果您不想覆盖原始内容,只需更改-o参数后面的值即可. (如果您希望文件已经排序,可以将sort语句更改为“仅检查”：sort -c $file || exit 1)
>第二种排序可以有效地合并输入文件,同时保持输出排序.
>这是通过管道传输到split命令,然后写入后缀输出文件.注意 – 字符;这告诉split要从标准输入(即管道)而不是文件中读取.

此外,这里是合并排序如何工作的简短摘要：

> sort从每个文件中读取一行.>它命令这些行并选择应该首先出现的行.该行被发送到输出,并从包含该行的文件中读取新行.>重复步骤2,直到任何文件中没有其他行.>此时,输出应该是一个完美排序的文件.>利润！

原文地址：https://www.jb51.cc/linux/394721.html

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：linux – 什么是/ dev / mapper / 下一篇：linux – wget和htaccess：仅限用户

相关推荐

基于LAMP搭建WordPress博客

1、安装Apache。 1）执行如下命令，安装Apache服务及其扩展包。 yum -y install httpd mod_ssl mod_perl mod_auth_mysql 2）执行如下命令，查看Apache是否安装成功。 httpd -v 3）执行如下命令，启动Apache服务。 syst

作者：风轻雪棉时间：2024-09-25

ansible批量采集、批量互信、批量复制、分发文件

一、先说一下用ansible批量采集机器信息的实现办法： 1、先把要采集的机器信息的IP添加到主节点机器的/etc/ansible/hosts里面； 2、在/etc/ansible/hosts里面添加想要登陆的密码和账号： [test] 192.168.192.77 192.168.192.78 1

作者：风轻雪棉时间：2024-09-25

vsftpd配置FTP服务器（Centos7.x安装）

安装配置 1. 安装vsftpd 检查是否安装了vsftpd # rpm -qa | grep vsftpdvsftpd-2.2.2-24.el6.x86_64 如果有展示则已经安装，不需要重新安装安装vsftpd yum -y install vsftpd //-y表示不用输入确定，直接一路安装

作者：风轻雪棉时间：2024-09-25

抑制stable_secret读取关键信息

如何抑制stable_secret读取关键的“net.ipv6.conf.all.stable_secret”消息？您可以/dev/null使用以下命令抑制额外的不需要的消息或将其重定向 [root@master ~]# sysctl -a --ignore 2>/dev/null | gr

作者：风轻雪棉时间：2024-09-25

Linux值得收藏的40个命令总结，常用的正则表达式

1 删除0字节文件 find -type f -size 0 -exec rm -rf {} \; 2 查看进程按内存从大到小排列 PS -e -o "%C : %p : %z : %a"|sort -k5 -nr 3 按 CPU 利用率从大到小排列 ps -e -o &quo

作者：风轻雪棉时间：2024-09-25

在Centos7上安装PXE装机环境来批量安装操作系统

## 步骤 1：安装必要的软件包首先，需要确保系统已安装 `dhcp`、`tftp-server` 和 `httpd` 等软件包。可以使用以下命令进行安装： ```bash yum install -y dhcp tftp-server httpd syslinux-tftpboot xinetd

作者：风轻雪棉时间：2024-09-25

Linux系统解压zip包出现中文乱码问题

1. 使用指定GBK编码格式进行解压可以使用如下指定编码格式进行解压。 unzip -O GBK 资料.zip 或者使用CP936也是可以指定GBK编码格式进行解压 unzip -O CP936 资料.zip 2. 使用环境变量指定压缩/解压缩编码格式在环境变量中，指定unzip参数，总是以指定的字

作者：风轻雪棉时间：2024-09-25

在Linux 中使用 pidstat 命令监控进程性能

一、安装 pidstat 命令检查系统是否已经安装了 pidstat 打开终端，输入以下命令检查是否已经安装了 pidstat： pidstat -V 如果显示版本信息，说明已经安装，可以跳过安装步骤。如果提示找不到命令，那么继续下一步安装。更新包管理器在安装 pidstat 前，建议先更新系

作者：风轻雪棉时间：2024-09-25

Ipmitool命令之ipmitool user（用户管理）

常见的用户配置命令：（1）查看用户清单 root@master:~# ipmitool user list 1 ID Name Callin Link Auth IPMI Msg Channel Priv Limit 1 ADMIN false false true ADMINISTRATOR （

作者：风轻雪棉时间：2024-09-25

Shell脚本之while read line的用法

Shell脚本之while read line的用法 while read line do … done < file read通过输入重定向，把file的第一行所有的内容赋值给变量line，循环体内的命令一般包含对变量line的处理；然后循环处理file的第二行、第三行。。。一直到file的

作者：风轻雪棉时间：2024-09-25

小编推荐

苹果市值2025年有望达4万亿美元