如何解决AWK 循环多列
请假装我有以下情况(多列和多行):
TUNE_PKGARCH
想要的是 awk 循环遍历每一列并在这些条件下写入新的输出:
如果第一个字段(以“:”分隔)是 1/1 或 0/0,
然后写“NA”TAB“NA”
其他
将两个数字写入以下字段,“数字 1”选项卡“数字 2”。列之间的分隔符应为 TAB。
因此,上面使用的示例所需的输出是:
1/1:123:121 TAB 0/0:1:21 TAB 1/1:12:14
0/1:12:23 TAB 0/1:12:15 TAB 0/0:123:16
0/0:3:178 TAB 1/1:123:121 TAB 1/1:2:28
以下是我当前的代码,适用于第一列,但我不知道如何使其适用于文件中的所有列。
NA TAB NA TAB NA TAB NA TAB NA TAB NA
12 TAB 23 TAB 12 TAB 15 TAB NA TAB NA
NA TAB NA TAB NA TAB NA TAB NA TAB NA
关于如何实现这一目标的任何想法?
非常感谢乔治。
解决方法
如果我正确理解了您的 TAB
符号,请您试试:
awk -F"\t" '{
for (i = 1; i <= NF; i++) {
split($i,a,":")
if (a[1] == "0/0" || a[1] == "1/1") a[2] = a[3] = "NA"
printf "%s\t%s%s",a[2],a[3],i == NF ? "\n" : "\t"
}
}' input_file
其中 input_file
看起来像:
1/1:123:121 0/0:1:21 1/1:12:14
0/1:12:23 0/1:12:15 0/0:123:16
0/0:3:178 1/1:123:121 1/1:2:28
和输出:
NA NA NA NA NA NA
12 23 12 15 NA NA
NA NA NA NA NA NA
,
您可以使用此awk
:
awk -v OFS='\t' -F '[:\t]' '{
s = ""
for (i=1; i<=NF; i+=3)
s = (s == "" ? "" : s OFS) ($i == "0/0" || $i == "1/1" ? "NA" OFS "NA" : $(i+1) OFS $(i+2))
print s
}' file
NA NA NA NA NA NA
12 23 12 15 NA NA
NA NA NA NA NA NA
,
一种可能的解决方案:
awk '{ for(i=1; i<=NF; i++){split($i,","); if (a[1] == "0/0" || a[1] == "1/1") {printf " ""NA"" ""NA"} else {printf " "a[2]" "a[3]}} print""}' | cut -d " " -f2- > Test.txt
,
一个 sed 解决方案:
sed 's~\(0/0\|1/1\)[0-9:]\+~NA\tNA~g; s~./.:\([0-9]\+\)\:\([0-9]\+\)~\1\t\2~g' dat.tab
NA NA NA NA NA NA
12 23 12 15 NA NA
NA NA NA NA NA NA
以'0/0'或'1/1'开头的第一个替换NAs字段
第二次替换从字段中分离并发出尾随冒号分隔的数字
(整理输出间距)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。