如何解决Snakemake:{input:q}不返回带引号的输入
我正在使用Genrich开发与Snakemake一起运行的ATACseq管道。
事实是,Genrich允许在同一步骤中从多个重复样品中调用峰,从而避免了其他步骤(即IDR)。
在Snakemake中,我找到了一种同时返回我想要的所有样本(即从一个条件复制)的方法,但是Genrich要求使用逗号分隔的文件作为输入文件,或者使用空格分隔的文件(如果每个文件都用引号引起来)
通常情况下,输入返回以空格分隔的文件(即file1 file2 file3)的列表,并且由于我不知道如何使它返回以逗号分隔的文件,因此我尝试引用它们。
从理论上讲,在Snakemake版本5.8.0之后,您可以在规则的shell命令中将输入称为{input:q}
,以返回引用的输入,如here。
但是,就我而言,返回的输入未加引号。
我创建了一个测试规则,以查看如何返回输入:
rule genrich_merge_test:
input:
lambda w: expand("{condition}.sorted.bam",condition = SAMPLES.loc[SAMPLES["CONDITION"] == w.condition].NAME),output:
"{condition}_peaks.narrowPeak",shell:
"""
echo {input:q} > {output}
"""
rep1.sorted.bam rep2.sorted.bam
有人知道如何解决这个问题,并返回引用的输入内容或返回逗号分隔文件而不是空格分隔的文件列表吗?
谢谢。
解决方法
假设您输入的文件名不包含空格(如果我强烈建议避免使用空格),则只需将文件列表加引号即可,而无需在列表中引用每个文件:
rule genrich:
input:
t= ['a.bam','b.bam'],...
shell:
r"""
Genrich -t '{input.t}' ...
"""
(请注意'{input.t}'
周围的单引号)
我当时在考虑echo和shell可能会在管道输出之前删除引号,但是用snakemake -p
检查执行的命令显示它们不在那儿。似乎只有空格时,引号才会显示单个文件名。
Dariober的答案应该可以引用列表,但是为了完整起见,如果要用逗号分隔文件列表,请在params指令中使用lambda函数:
rule genrich_merge_test:
input:
lambda w: expand("{condition}.sorted.bam",condition=SAMPLES.loc[SAMPLES["CONDITION"] == w.condition].NAME),params:
files=lambda wildcards,input: ','.join(input)
output:
"{condition}_peaks.narrowPeak",shell:
"""
echo {params.files} > {output}
"""
编辑
这是一个玩具示例,演示了如何在输入中使用params:
# snakefile
inputs = expand('{wc}.out',wc=range(4))
rule all:
input: "test_peaks.narrowPeak"
rule genrich:
input:
inputs
params:
files=lambda wildcards,'.join(input)
output:
"test_peaks.narrowPeak",shell:
"""
echo {params.files} > {output}
"""
rule generator:
output: touch('{file}.out')
$ snakemake -np
...
rule genrich:
input: 0.out,1.out,2.out,3.out
output: test_peaks.narrowPeak
jobid: 1
echo 0.out,3.out > test_peaks.narrowPeak
...
也如here
所示请注意,与input指令相反,params指令可以选择接受比仅通配符更多的参数,即输入,输出,线程和资源。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。