如何解决Snakemake古代标记与通配符
我从NCBI网站上下载的SRA文件很少。现在,我要将它们添加到我的snakemake
工作流程中。但是,如果它们不可用,我想保留使用prefetch
下载它们的能力。我遵循以下简单规则,
BASE = "/path/to/working/folder"
rule all:
input: [f"{BASE}/fastq/SRR000001.sra_1.fastq",f"{BASE}/fastq/SRR000001.sra_2.fastq"]
shell:
"echo Finished"
rule get_sra:
input: ancient("config/config.yaml")
output:"{BASE_FOLDER}/sra/{SSR_ID}.sra"
shell:
"prefetch -p {wildcards.SSR_ID} --output-file {output} "
rule get_fastq:
input: expand("{folder}/sra/{srr}.sra",folder=BASE,srr="{SRR_ID}")
output:
expand("{folder}/fastq/{srr}.sra_{i}.fastq",srr="{SRR_ID}",i=[1,2])
shell:
"fasterq-dump {input} --outdir {BASE}/fastq"
如果我使用上述规则,则我的工作流将重新创建我的SRA文件,因为它们的时间戳会更旧。但是,我不想再次从服务器下载完整的SRA文件,而使用已经下载的文件。
为此,我尝试使用ancient标签。但是我不能将此标记与任何通配符一起使用。
input: ancient("{BASE_FOLDER}/sra/{SSR_ID}.sra")
以上规则给出错误为
无法从输出文件确定输入文件中的通配符:
任何解决此问题的方法?当我使用expand
时,这也不起作用。
解决方法
问题在于并非大括号中指定的所有内容实际上都是通配符。您可能有3种不同的用例,其中可以使用花括号:
-
expand
函数 - f-string
- 通配符
在前两种情况(扩展和f字符串)中,结果是完全指定的字符串,根本没有任何通配符。如果您有这样的事情:
rule dummy:
input: "{wildcard}.input"
output: expand("{wildcard}.output",wildcard=["1","2"])
结果将很简单:
rule dummy:
input: "{wildcard}.input"
output: ["1.output","2.output"]
如您所见,输出部分根本没有通配符,因此输入无法确定其通配符的值。
典型的解决方案是将该规则分为两个规则:
rule all:
input: expand("{wildcard}.output","2"])
rule do_some_work:
input: "{wildcard}.input"
output: "{wildcard}.output"
但是请注意,我在{wildcard}
中称为rule all:
的东西本身并不是通配符,而是在expand
函数的本地上下文中任意选择的名称。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。