微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何判断序列读取对是来自配对末端还是配对库?

如何解决如何判断序列读取对是来自配对末端还是配对库?

我想从四个文库的公开可用 SRA 数据中重新组装真核基因组:两个配对末端和两个配对配对,全部使用 Illumina 测序(150 bp 读数)。但是,SRA 元数据并未指明哪些文库是配对末端或配对配对。

通过针对公共可用程序集对 SRA 配对读数进行魔法爆破,我预计配对末端读数将在重叠群/支架上相互映射,而配对对读数将在重叠群/支架上映射得更远。然而,所有四个文库的配对读数通常重叠。

以下是一些提取的数据,将每个库的成对读取(查询)映射到来自 magic-blast 输出文件的组装重叠群(refID):

queryID         refID  %_ident q_start  q_end   r_start   r_end

SRR_1.sra.6388.1  S107.1  100     27  127     80397   80497
SRR_1.sra.6388.2  S107.1  100     1   101     80497   80397

SRR_2.sra.576423.1 S007.1  100     1   151     297238  297388
SRR_2.sra.576423.2 S007.1  100     58  151     297455  297362

SRR_3.sra.4219.1  S516.1  99.0654   45  151     40745   40639
SRR_3.sra.4219.2  S516.1  99.1379   1   116     40630   40745

SRR_4.sra.3159.1  S557.1  99.3333 1   150     37510   37659
SRR_4.sra.3159.2  S557.1  100     1   151     37706   37556

如上所示,SRR_1 和 SRR_3 读取对映射到(几乎)相同(反向)对应重叠群的坐标。我想如果文库片段来自配对的末端文库并且与读取长度(150 bp)的大小大致相同,这是可能的,但我预计会产生更长的文库片段(300-600 bp)。

SRR_2 和 SRR_4 读取对的映射坐标是偏移的,但仍然重叠(在许多情况下,重叠与 SRR_1 和 SRR_3 对一样广泛)。如果它们来自配偶对库,我希望它们映射到相同的重叠群,但彼此之间有数百个碱基对。

我的工作假设是所有四个库都是由非常小的片段组成的,但也许还有另一种可能的解释。或者也许我对配对末端和配对读取映射的期望是错误的。有什么见解吗?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?