使用蛇形通配符重命名文件

如何解决使用蛇形通配符重命名文件

我在解决snakemake 中遇到的问题时遇到了麻烦。我的样本目前被命名为“1-2-Brain_187_006_S77_L002_R1_001.fastq.gz”。我想最终将它们重命名为更短的名称,如“1_2_Brain_S77_L002_R1”,然后为我的规则使用扩展名“_trim.fastq.gz”。我正在使用 bbduk 进行修剪。对于我的输入,我想调用我的字典列表 allSamples。然后我想访问每个字典中的值。具体来说,“shortName1”和“shortName2”值。我的问题是我的问题,它将整个列表显示为单次运行的输入。我不确定如何使它注册每个元素都是它自己的运行。当我实际上有 114 个文件名时,我将显示 3 个文件名作为示例。因此,我希望我的试运行有 114 个修剪作业的计数。

config.json

{
   "allSamples" : ['1_2_Brain_S77_L002','10_4_Kidney_S82_L002','11_4_BB_S105_L002' ......],"1_2_Brain_S77_L002":{
        "sampleName1": "1-2-Brain_187_006_S77_L002_R1_001.fastq.gz","sampleName2": "1-2-Brain_187_006_S77_L002_R2_001.fastq.gz","shortName1": "1_2_Brain_S77_L002_R1","shortName2": "1_2_Brain_S77_L002_R2","stemName": "1_2_Brain_S77_L002"
        },....
}

我将位于 rawReads/ 中的文件存储在 trimmedReads/ 中。

蛇形文件

configfile: "refs/config.json"

# variables
sampleDict = config["allSamples"]
sampleNames1 = [config[i]["sampleName1"] for i in sampleDict]
sampleNames2 = [config[i]["sampleName2"] for i in sampleDict]
shortNames1 = [config[i]["shortName1"] for i in sampleDict]
shortNames2 = [config[i]["shortName2"] for i in sampleDict]

rule all:
    input: 
        expand("trimmedReads/{trim1}_trim.fastq.gz",trim1 = shortNames1),expand("trimmedReads/{trim2}_trim.fastq.gz",trim2 = shortNames2)

rule trim:
    input:
        R1 = expand("rawReads/{sample1}",sample1 = sampleNames1),R2 = expand("rawReads/{sample2}",sample2 = sampleNames2)
    output:
        trim1 = expand("trimmedReads/{trim1}_trim.fastq.gz",trim2 = expand("trimmedReads/{trim2}_trim.fastq.gz",trim2 = shortNames2)
    shell:
        """
        bbduk.sh in1={input.R1} in2={input.R2} out1={output.trim1} out2={output.trim2} ref=ref/adapters.fa ktrim=r k=23 mink=11 hdist=1 tpe tbo
        """

当我进行试运行时,我得到了这个。

Building DAG of jobs...
Job counts:
    count   jobs
    1   all
    1   trim
    2

[Mon May 24 22:42:36 2021]
rule trim:
    input: rawReads/1-2-Brain_187_006_S77_L002_R1_001.fastq.gz,rawReads/10-4-Kidney_127_066_S82_L002_R1_001.fastq.gz,rawReads/11-4_BB_041_152_S105_L002_R1_001.fastq.gz,...
    output: trimmedReads/1_2_Brain_S77_L002_R1_trim.fastq.gz,trimmedReads/10_4_Kidney_S82_L002_R1_trim.fastq.gz,trimmedReads/11_4_BB_S105_L002_R1_trim.fastq.gz,...
    jobid: 1


bbduk.sh in1=rawReads/1-2-Brain_187_006_S77_L002_R1_001.fastq.gz rawReads/10-4-Kidney_127_066_S82_L002_R1_001.fastq.gz rawReads/11-4_BB_041_152_S105_L002_R1_001.fastq.gz ... out1=trimmedReads/1_2_Brain_S77_L002_R1_trim.fastq.gz trimmedReads/10_4_Kidney_S82_L002_R1_trim.fastq.gz trimmedReads/11_4_BB_S105_L002_R1_trim.fastq.gz ... ref=ref/adapters.fa ktrim=r k=23 mink=11 hdist=1 tpe tbo
        

[Mon May 24 22:42:36 2021]
localrule all:
    input: trimmedReads/1_2_Brain_S77_L002_R1_trim.fastq.gz,...
    jobid: 0

Job counts:
    count   jobs
    1   all
    1   trim
    2
This was a dry-run (flag -n). The order of jobs does not reflect the order of execution.

解决方法

rule test: 的通配符是一个空字典。此规则中未指定通配符值 wildcards.sample。每个通配符都应在 output: 部分中指定,并且此部分对于此规则为空。实际上,除非您将 rule test: 明确指定为目标,否则您的 ["rawReads/1_2_Brain_S77_L002","rawReads/17_6_Brain_S83_L002"] 绝对没有任何效果:如果没有指定任何输出,Snakemake 只会忽略这条没有产生任何结果的无用规则。

我猜文件 rule all: input: ["path_to_target/foo_SampleName1_bar","path_to_target/foo_SampleName2_bar"] # List the files you expect to get as a target rule copy: input: "path_to_source/blablabla_{sample}_bazz" output: "path_to_target/foo_{sample}_bar" shell: "echo {input}; cp {input} {output}" 已经存在,所以 Snakemake 发现目标存在于磁盘上,并且什么都不做,产生“无输出”。

我不明白您所说的“最终将它们重命名为较短的名称”是什么意思,但这里有一个如何复制文件的方法。将此视为“如何使用通配符访问我的示例名称”的模式:

rule copy:

工作原理:

  1. Snakemake 发现它需要生成一些文件(如果这些文件是“path_to_target/foo_SampleName1_bar”、“path_to_target/foo_SampleName2_bar”)。
  2. Snakemake 发现 {sample} 声明输出(如果将 "SampleName1" 替换为值 "path_to_target/foo_SampleName1_bar")与文件名 "path_to_source/blablabla_SampleName1_bazz" 匹配
  3. 如果文件 "path_to_target/foo_SampleName1_bar" 存在,则 Snakemake 满意,并且知道如何生成文件 {sample}
  4. "SampleName2"rule copy: 重复步骤 2、3。
  5. 现在它知道 I=int R=range listInput = lambda : [I(x) for x in input().strip(" ")] for x in R(I(input())): 应运行两次:每个文件一次。
  6. 所有依赖都解决了,Snakemake 可以启动管道了。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams['font.sans-serif'] = ['SimHei'] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -> systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping("/hires") public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate<String
使用vite构建项目报错 C:\Users\ychen\work>npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-
参考1 参考2 解决方案 # 点击安装源 协议选择 http:// 路径填写 mirrors.aliyun.com/centos/8.3.2011/BaseOS/x86_64/os URL类型 软件库URL 其他路径 # 版本 7 mirrors.aliyun.com/centos/7/os/x86
报错1 [root@slave1 data_mocker]# kafka-console-consumer.sh --bootstrap-server slave1:9092 --topic topic_db [2023-12-19 18:31:12,770] WARN [Consumer clie
错误1 # 重写数据 hive (edu)> insert overwrite table dwd_trade_cart_add_inc > select data.id, > data.user_id, > data.course_id, > date_format(
错误1 hive (edu)> insert into huanhuan values(1,'haoge'); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1
报错1:执行到如下就不执行了,没有显示Successfully registered new MBean. [root@slave1 bin]# /usr/local/software/flume-1.9.0/bin/flume-ng agent -n a1 -c /usr/local/softwa
虚拟及没有启动任何服务器查看jps会显示jps,如果没有显示任何东西 [root@slave2 ~]# jps 9647 Jps 解决方案 # 进入/tmp查看 [root@slave1 dfs]# cd /tmp [root@slave1 tmp]# ll 总用量 48 drwxr-xr-x. 2
报错1 hive> show databases; OK Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object Time taken: 0.474 se
报错1 [root@localhost ~]# vim -bash: vim: 未找到命令 安装vim yum -y install vim* # 查看是否安装成功 [root@hadoop01 hadoop]# rpm -qa |grep vim vim-X11-7.4.629-8.el7_9.x
修改hadoop配置 vi /usr/local/software/hadoop-2.9.2/etc/hadoop/yarn-site.xml # 添加如下 <configuration> <property> <name>yarn.nodemanager.res