如何解决嵌套的 full_join 后缀超过 2 个 data.frames
我想将几个 data.frames 与一些常见的列合并,并在列名后附加一个后缀,以跟踪每列的数据来自哪里。
我可以在第一个 full_join 中使用后缀项轻松完成,但是当我执行第二个 join 时,没有添加后缀。我可以重命名第三个 data.frame 使其具有后缀,但我想知道是否有另一种使用后缀术语的方法。
x = data.frame(col1 = c("a","b","c"),col2 = 1:3,col3 = 1:3)
y = data.frame(col1 = c("b","c","d"),col2 = 4:6,col3 = 1:3)
z = data.frame(col1 = c("c","d","a"),col2 = 7:9,col3 = 1:3)
> df = full_join(x,y,by = "col1",suffix = c("_x","_y")) %>%
full_join(z,suffix = c("","_z"))
> df
col1 col2_x col3_x col2_y col3_y col2 col3
1 a 1 1 NA NA 9 3
2 b 2 2 4 1 NA NA
3 c 3 3 5 2 7 1
4 d NA NA 6 3 8 2
我原以为 data.frame col2
中的 col3
和 z
会有一个“_z”后缀。我尝试在合并两个 data.frames 时使用空后缀,并且它有效。
我可以通过在执行第二个 full_join 之前重命名 z
中的列来解决,但在我的真实数据中,我有几个常见的列,如果我想合并更多的 data.frames,它会使代码复杂化。这是我的预期输出。
> colnames(z) = paste0(colnames(z),"_z")
> df = full_join(x,by = c("col1"="col1_z"))
> df
col1 col2_x col3_x col2_y col3_y col2_z col3_z
1 a 1 1 NA NA 9 3
2 b 2 2 4 1 NA NA
3 c 3 3 5 2 7 1
4 d NA NA 6 3 8 2
我见过其他 similar problems,其中使用了添加额外的列来跟踪源 data.frame,但我想知道为什么后缀术语不适用于多个连接。
PS:如果我将第一个后缀保留为空,我可以在第二个连接中添加后缀,但这会使 x 的 col2 和 col3 没有后缀。
> df = full_join(x,"_z"))
> df
col1 col2 col3 col2_y col3_y col2_z col3_z
1 a 1 1 NA NA 9 3
2 b 2 2 4 1 NA NA
3 c 3 3 5 2 7 1
4 d NA NA 6 3 8 2
解决方法
你可以这样做:
full_join(x,y,by = "col1",suffix = c("","_y")) %>%
full_join(z,suffix = c("_x","_z"))
col1 col2_x col3_x col2_y col3_y col2_z col3_z
1 a 1 1 NA NA 9 3
2 b 2 2 4 1 NA NA
3 c 3 3 5 2 7 1
4 d NA NA 6 3 8 2
在最后一次加入时为 suffix
添加 x
应该可以解决问题。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。