将 grep 与模式文件一起使用会返回不在模式文件中的模式序列名称

如何解决将 grep 与模式文件一起使用会返回不在模式文件中的模式序列名称

我正在清理测序数据。 我有一个包含读取(名称)的文件,我想用 grep 查找并最终删除。 模式文件有 219,721 行,没有重复的条目。序列 .fastq 文件的长度为 557,514,608 行,没有重复的名称

我用过: grep -f patternfile.txt sequencefile.fastq > outputfile.txt

我期望输出文件与模式文件相同(除了末尾包含 1:N:0:ACTGAT),但输出文件有 135 行(名称)。这些额外的名称不是重复的,并且在模式文件中找不到。我可以打开输出文件并识别多余的行。下面显示了模式文件第 340-342 行的示例:

@NB501827:133:HMV5HAFX2:1:11101:13856:12920
@NB501827:133:HMV5HAFX2:1:11101:16016:12934
@NB501827:133:HMV5HAFX2:1:11101:19446:12943

输出文件与第 341 行相同,如下所示:

@NB501827:133:HMV5HAFX2:1:11101:13856:12920 1:N:0:ACTGAT
@NB501827:133:HMV5HAFX2:1:11101:26336:12921 1:N:0:ACTGAT
@NB501827:133:HMV5HAFX2:1:11101:16016:12934 1:N:0:ACTGAT
@NB501827:133:HMV5HAFX2:1:11101:19446:12943 1:N:0:ACTGAT

请注意,第 341 行 @NB501827:133:HMV5HAFX2:1:11101:26336:12921 1:N:0:ACTGAT 处存在错误的额外行,这只是其他 134 行额外行的一个示例。

我为什么要这样做? 这是一个配对的末端读取测序实验,我发现了 219,721 个实例,其中“sequencefileR2”文件中的读取为 75 个“G”的字符串,并且由于测序而出现明显错误。我能够使用 grep 提取这些序列名称,现在想要删除两个文件(sequencefileR1 和 sequencefileR2)中的相应读取。计划是使用 grep 的逆标志(例如 grep -v)来生成没有这些特定序列的序列文件。我在生成最终文件之前检查了 grep 输出并发现了这个问题。

我尝试了什么? 我已尝试确保不存在 Windows (DOS) 行尾。 我试过在模式文件中包含 1:N:0:ACTGAT 我在三个不同的文件系统(CentOS7、Gitbash、Cygwin)上尝试过这个命令,结果相同(总是得到完全相同的输出)。 我试过egrep 我已经使用了上面显示的模式文件单独的行 340、341 和 342(以及还有错误输出行),并且只从序列文件(例如)中获得了一个输出行(例如)

grep @NB501827:133:HMV5HAFX2:1:11101:13856:12920 sequencefileR2.fastq
@NB501827:133:HMV5HAFX2:1:11101:13856:12920 1:N:0:ACTGAT

我尝试从模式文件的每一行中删除 @ 符号,但得到了相同的结果。 我试过把 grep 放在一个循环中(这不起作用,他们是业余尝试)

for pattern in 'R1-R2-names.txt'; do     grep "$pattern"
 L_lactis_S1_LALL_R2_001.fastq >> loopr1names; done

for pattern in 'cat R1-R2-names.txt'; do     grep "$pattern"
 L_lactis_S1_LALL_R2_001.fastq >> loopr1names; done

我对 sedawk 解决方案持开放态度,但想了解为什么这个简单的 bash 解决方案不起作用。谢谢。

解决方法

使用

grep -w -F -f patternfile.txt sequencefile.fastq > outputfile.txt

-w 表示仅当模式被单词边界包围时才匹配模式。 -F 表示匹配固定文本模式,而不是正则表达式(这在这里可能并不重要,因为您的模式似乎不包含任何具有特殊含义的字符,但这是一种很好的做法)。

我怀疑您的模式文件包含 @NB501827:133:HMV5HAFX2:1:11101:26336:12921 前缀,因此它与此行匹配。 -w 选项将阻止匹配这些前缀。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?