如何判断序列读取对是来自配对末端还是配对库？

如何解决如何判断序列读取对是来自配对末端还是配对库？

我想从四个文库的公开可用 SRA 数据中重新组装真核基因组：两个配对末端和两个配对配对，全部使用 Illumina 测序（150 bp 读数）。但是，SRA 元数据并未指明哪些文库是配对末端或配对配对。

通过针对公共可用程序集对 SRA 配对读数进行魔法爆破，我预计配对末端读数将在重叠群/支架上相互映射，而配对对读数将在重叠群/支架上映射得更远。然而，所有四个文库的配对读数通常重叠。

以下是一些提取的数据，将每个库的成对读取（查询）映射到来自 magic-blast 输出文件的组装重叠群（refID）：

queryID         refID  %_ident q_start  q_end   r_start   r_end

SRR_1.sra.6388.1  S107.1  100     27  127     80397   80497
SRR_1.sra.6388.2  S107.1  100     1   101     80497   80397

SRR_2.sra.576423.1 S007.1  100     1   151     297238  297388
SRR_2.sra.576423.2 S007.1  100     58  151     297455  297362

SRR_3.sra.4219.1  S516.1  99.0654   45  151     40745   40639
SRR_3.sra.4219.2  S516.1  99.1379   1   116     40630   40745

SRR_4.sra.3159.1  S557.1  99.3333 1   150     37510   37659
SRR_4.sra.3159.2  S557.1  100     1   151     37706   37556

如上所示，SRR_1 和 SRR_3 读取对映射到（几乎）相同（反向）对应重叠群的坐标。我想如果文库片段来自配对的末端文库并且与读取长度（150 bp）的大小大致相同，这是可能的，但我预计会产生更长的文库片段（300-600 bp）。

SRR_2 和 SRR_4 读取对的映射坐标是偏移的，但仍然重叠（在许多情况下，重叠与 SRR_1 和 SRR_3 对一样广泛）。如果它们来自配偶对库，我希望它们映射到相同的重叠群，但彼此之间有数百个碱基对。

我的工作假设是所有四个库都是由非常小的片段组成的，但也许还有另一种可能的解释。或者也许我对配对末端和配对读取映射的期望是错误的。有什么见解吗？

如何判断序列读取对是来自配对末端还是配对库？

如何解决如何判断序列读取对是来自配对末端还是配对库？

相关推荐