技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

是否需要使用awk预处理文件,或者可以直接在R中完成？

时间：2020-08-21分类：Linux作者：编程之家

我以前用awk处理csv文件,这是我的第一个脚本：

tail -n +2 shifted_final.csv | awk -F,'BEGIN {old=$2} {if($2!=old){print $0; old=$2;}}' | less

此脚本在第2列中查找重复值(如果第n行上的值与第n行上的值相同,n 2 …)并且仅打印第一次出现的值.例如,如果您输入以下输入：

ord,orig,pred,as,o-p
1,1.0,0
2,0
3,0
4,0.0,0
5,0
6,0
7,0
8,0
9,0
10,0
11,0
12,0
13,0
14,0
15,0
16,0
17,0
18,0
19,0
20,0
21,0
22,0
23,4,4
24,402,402
25,0

然后输出将是：

1,0

编辑：
我添加第二个脚本让我有点挑战：

第二个脚本执行相同操作但打印最后一次重复出现：

tail -n +2 shifted_final.csv | awk -F,'BEGIN {old=$2; line=$0} {if($2==old){line=$0}else{print line; old=$2; line=$0}} END {print $0}' | less

它的输出将是：

22,0

我认为R是应该处理这些任务的强大语言,但我发现只有从R等调用awk脚本的问题.如何在R中执行此操作？

解决方法

关于你的问题的更新,一个更通用的解决方案,感谢@nicola：

Idx.first <- c(TRUE,tbl$orig[-1] != tbl$orig[-nrow(tbl)])
##
R> tbl[Idx.first,]
#    ord orig pred as o.p
# 1    1    0    0  1   0
# 23  23    4    0  0   4
# 24  24  402    0  1 402
# 25  25    0    0  1   0

如果你想在运行中使用最后一次出现的值而不是第一次出现的值,只需将TRUE追加到@ nicola的索引表达式而不是在它前面加上：

Idx.last <- c(tbl$orig[-1] != tbl$orig[-nrow(tbl)],TRUE)
##
R> tbl[Idx.last,]
#    ord orig pred as o.p
# 22  22    0    0  0   0
# 23  23    4    0  0   4
# 24  24  402    0  1 402
# 25  25    0    0  1   0

在任何一种情况下,tbl $orig [-1]！= tbl $orig [-nrow(tbl)]将第2列中的第2到第n个值与第2列中的第1到第n-1值进行比较.结果是合乎逻辑的.向量,其中TRUE元素表示连续值的变化.由于比较长度为n-1,因此将额外的TRUE值推到前面(情况1)将选择运行中的第一次出现,而向后面添加额外的TRUE(情况2)将选择最后一次出现.跑.

数据：

tbl <- read.table(text = "ord,0",header = TRUE,sep = ",")

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：将项添加到Linux内核链表下一篇：linux – 如何在命令行中匹配另一个

相关推荐

Linux ARP防火墙如何设置

在Linux系统中，设置ARP防火墙可以通过多种方法实现，包括使用iptables、firewalld或特定的工具如arpwatch和arpbind。以下是详细的设置步骤和工具推荐：### 使用i...

作者：编程之家时间：2024-10-10

Linux Jack2怎样编译更快

在Linux环境下，使用Jack2进行编译时，可以采取以下策略来提高编译速度：1. **使用多线程编译**： - 利用GNU Make的并行编译功能。在运行`make`命令时，可以通过添加...

作者：编程之家时间：2024-10-10

Linux Getid准确度高吗

`getid`命令在Linux系统中用于获取当前进程的有效用户ID（EUID），它通常用于确定当前进程的所有者。关于其准确度，我们可以从以下几个方面进行分析：### 准确度分析- **功能实现...

作者：编程之家时间：2024-10-10

Linux Codesign如何操作

在Linux环境下，codesign工具用于对代码进行签名，以确保其完整性和来源的可信性。以下是使用codesign工具进行操作的基本步骤：1. **安装codesign**： - 如果尚...

作者：编程之家时间：2024-10-10

Linux Transform功能强大吗

Linux中的`tr`命令，其英文全称是“transform”，即转换的意思。它是一个非常实用的文本处理工具，功能强大，主要用于字符转换、压缩和删除操作。以下是关于`tr`命令的相关信息：### ...

作者：编程之家时间：2024-10-10

Linux ARP防火墙如何有效

Linux中的ARP防火墙是一种用于防止ARP欺骗攻击的安全措施，它通过监控和过滤ARP请求和响应来保护网络。以下是Linux ARP防火墙的有效性及其配置方法：### Linux ARP防火墙的...

作者：编程之家时间：2024-10-10

Linux Getid如何精准识别

在Linux中，`getpid()`函数是用于获取当前进程的ID号。如果你想要精准地识别一个进程，使用`getpid()`是一个很好的选择。下面是一个简单的示例代码，展示了如何使用`getpid(...

作者：编程之家时间：2024-10-10

Linux Jack2性能优异吗

Linux Jack2的性能是否优异，取决于多个因素，包括使用场景、硬件配置、系统优化等。Jack2是一个开源的音频服务器和通信框架，它可以在Linux和其他类Unix操作系统上运行。它被广泛用于...

作者：编程之家时间：2024-10-10

Linux Transform有哪些应用场景

Linux中的`tr`命令，其英文全称是“transform”，主要用于字符转换、压缩和删除操作。以下是一些具体的应用场景：- **字符替换**：将文件中的小写字母替换为大写字母。- **删除字...

作者：编程之家时间：2024-10-10

Linux ARP防火墙好用吗

Linux下有多种ARP防火墙工具，它们各有特点，但通常都具备一定的易用性。以下是一些推荐的Linux ARP防火墙工具：- **服务器安全狗Linux版**：专为Linux服务器设计，集成了DD...

作者：编程之家时间：2024-10-10

小编推荐

苹果市值2025年有望达4万亿美元