如何解决蛇形 - 来自 python 字典的通配符
我正在编写一个带有特定文件夹名称的输入文件的 snakemake 文件(在此示例中,barcode9[456]
)。我需要更改这些目录中的命名约定,因此我现在想向我的 snakemake 添加第一条规则,它将原始位置 (FASTQ_PATH
) 中的文件夹链接到 snakemake 工作目录中的输出文件夹。此目录中的链接文件夹的名称来自 python 字典 d
,在snakemake 中定义。然后我会使用这些目录作为下游规则的输入。
所以我的snakemake的第一条规则其实是一个python脚本(scripts/ln.py
),将原目录中的命名约定映射到想要的命名约定,并链接fastqs:
蛇形看起来像这样:
FASTQ_PATH = '/path/to/original_location'
# dictionary that maps the subdirectories in FASTQ_PATH (keys) with the directory names that I want in the snakemake working directory (values)
d = {'barcode94': 'IBC_UZL-CV5-04','barcode95': 'IBC_UZL-CV5-42','barcode96': 'IBC_UZL-CV5-100'}
rule all:
input:
expand('symLinkFq/{barcode}',barcode = list(d.values())) # for each element in list(d.values()) I want to create a subdirectory that would point to the corresponding path in the original location (FASTQ_PATH)
rule symlink:
input:
FASTQ_PATH,d
output:
'symLinkFq/{barcode}'
script:
"scripts/ln.py"
我调用来建立链接的python脚本如下所示
import pandas as pd
import subprocess as sp
import os
# parsing variables from Snakefile
d_sampleNames = snakemake.input[1]
fastq_path = snakemake.input[0]
os.makedirs('symLinkFq')
for barcode in list(d_sampleNames.keys()):
idx = list(d_sampleNames.keys()).index(barcode)
sampleName = list(d_sampleNames.values())[idx]
sp.run(f"ln -s {fastq_path}/{barcode} symLinkFq/{sampleName}",shell=True) # the relative path with respect to the working directory should suffice for the DEST in the ln -s command
但是当我调用 snakemake -np -s Snakefile
时,我得到
Building DAG of jobs...
MissingInputException in line 15 of /nexusb/SC2/ONT/scripts/SnakeMake/minimalExample/renameFq/Snakefile:
Missing input files for rule symlink:
barcode95
barcode94
barcode96
这种错误对我来说很有意义。我唯一拥有的“输入”文件是 python 变量,而不是系统中确实存在的文件。
我想我遇到的问题归结为我想用于所有规则的通配符不存在于任何可用作输入的文件中,所以我可以想到使用的是字典与通信,虽然它不像我试过的那样工作。
有谁知道如何解决这个问题,欢迎任何其他不同的方法。
解决方法
如果我理解正确,我认为它会更容易...
我会反转键/值映射(这里使用 dict(zip(...))
)而不是使用 lambda 输入函数来获取每个输出键的源目录:
FASTQ_PATH = '/path/to/files'
d = {'barcode94': 'IBC_UZL-CV5-04','barcode95': 'IBC_UZL-CV5-42','barcode96': 'IBC_UZL-CV5-100'}
d = dict(zip(d.values(),d.keys())) # Values become keys and viceversa
rule all:
input:
expand('symLinkFq/{barcode}',barcode = d.keys())
rule symlink:
input:
indir= lambda wc: os.path.join(FASTQ_PATH,d[wc.barcode]),output:
outdir= directory('symLinkFq/{barcode}'),shell:
r"""
ln -s {input.indir} {output.outdir}
"""
顺便说一句,在 python 脚本中,我会使用 os.symlink()
而不是产生子进程并调用 ln -s
- 我认为如果出现问题,调试会更容易。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。