如何解决如何判断序列读取对是来自配对末端还是配对库?
我想从四个文库的公开可用 SRA 数据中重新组装真核基因组:两个配对末端和两个配对配对,全部使用 Illumina 测序(150 bp 读数)。但是,SRA 元数据并未指明哪些文库是配对末端或配对配对。
通过针对公共可用程序集对 SRA 配对读数进行魔法爆破,我预计配对末端读数将在重叠群/支架上相互映射,而配对对读数将在重叠群/支架上映射得更远。然而,所有四个文库的配对读数通常重叠。
以下是一些提取的数据,将每个库的成对读取(查询)映射到来自 magic-blast 输出文件的组装重叠群(refID):
queryID refID %_ident q_start q_end r_start r_end
SRR_1.sra.6388.1 S107.1 100 27 127 80397 80497
SRR_1.sra.6388.2 S107.1 100 1 101 80497 80397
SRR_2.sra.576423.1 S007.1 100 1 151 297238 297388
SRR_2.sra.576423.2 S007.1 100 58 151 297455 297362
SRR_3.sra.4219.1 S516.1 99.0654 45 151 40745 40639
SRR_3.sra.4219.2 S516.1 99.1379 1 116 40630 40745
SRR_4.sra.3159.1 S557.1 99.3333 1 150 37510 37659
SRR_4.sra.3159.2 S557.1 100 1 151 37706 37556
如上所示,SRR_1 和 SRR_3 读取对映射到(几乎)相同(反向)对应重叠群的坐标。我想如果文库片段来自配对的末端文库并且与读取长度(150 bp)的大小大致相同,这是可能的,但我预计会产生更长的文库片段(300-600 bp)。
SRR_2 和 SRR_4 读取对的映射坐标是偏移的,但仍然重叠(在许多情况下,重叠与 SRR_1 和 SRR_3 对一样广泛)。如果它们来自配偶对库,我希望它们映射到相同的重叠群,但彼此之间有数百个碱基对。
我的工作假设是所有四个库都是由非常小的片段组成的,但也许还有另一种可能的解释。或者也许我对配对末端和配对读取映射的期望是错误的。有什么见解吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。