微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

您应该在基因组组装后重新组合分割的fastq文件吗?

如何解决您应该在基因组组装后重新组合分割的fastq文件吗?

我已经将一个较大的fastq文件拆分为6个或7个较小的,更易于管理的文件,用于基因组组装。

现在重新组合输出文件(contigs.fasta)是否“生物学上正确”?有更有意义的方法吗?

谢谢。

解决方法

最佳实践是使用可以在足够的硬件(具有大的RAM和快速的I / O)上处理大型fastq文件的汇编程序。如果输入大于RAM中的容量,则让汇编软件自己并行化汇编过程。最好使用这种单一输入方法,将输入分成多个部分,分别组装每个部分,然后“组装”部分输出/重叠群。

参考:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5850084/

Dominguez Del Angel,V.,Hjerde,E.,Sterck,L.,Capella-Gutierrez,S.,Notredame,C.,Vinnere Pettersson,O.,Amselem,J.,Bouri,L.,Bocs, S.,Klopp,C.,Gibrat,JF,Vlasova,A.,Leskosek,BL,Soler,L.,Binzer-Panchal,M.,&Lantz,H.(2018年)。基因组组装和注释入门的十个步骤。 F1000Research,7,ELIXIR-148。 https://doi.org/10.12688/f1000research.13598.1

对于基因组组装,运行时间和存储要求将 随着数据量的增加。随着大数据需要更多数据 基因组,因此基因组大小与 运行时间/内存要求。只有一小部分可用 汇编程序可以将汇编程序分为几个过程 并在多个计算节点上并行运行它们。无法使用的工具 这样做往往会在单个节点上需要大量内存,而 可以拆分进程的程序每个程序需要较少的内存 单个节点,但是当 有几个节点可用。因此,选择 在项目早期使用适当的组装工具,并确保有 足够的正确类型的可用计算资源来运行这些资源 工具。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?