如何解决如何用两个不同的条形码系统对BCL数据进行解复用?
我想知道是否有人有一次将来自Illumina的BCL文件与两种不同的条形码系统解复用的经验?
我们想知道在标记过程中是否有可能使用不同的条形码Tn5衔接子,然后将这些条形码与测序引物上的条形码结合使用以对样品进行多路分离。
有人有这种分析经验吗? 是否可以仅在解复用之前将Tn5序列添加到引物序列中,并在BCL2fastq运行中使用它?
谢谢
Assa
解决方法
我对Tn5适配器库不是很了解,但是我会试一试。
从理论上讲,这应该是可能的。只要您提供适当的样本表和正确的df_daytot_km.plot.line(figsize=[20,15],legend=False)
参数,bcl2fastq就能对其进行多路分解。
如果需要通过两个条形码系统的组合对所有样品进行多路分解,则必须为每个组合创建一个带有一行的样品表。您还需要知道Tn5适配器在哪个周期排序。
例如,假设我的原始样本表如下:
--use-bases-mask
我将使用[Data]
Sample_ID,Sample_Name,Sample_Plate,Sample_Well,Index_Plate_Well,I7_Index_ID,index,I5_Index_ID,index2,Sample_Project,Description
ID-1,ID-1,A01,UDP0001,GAACTG,TCGTGG,project,ID-2,B01,UDP0002,AGGTCA,CTACAA,
之类的--use-bases-mask
自变量来告诉bcl2fastq需要读取6个碱基的条形码。
现在,如果您的Tn5适配器位于照明条形码的后面,您将需要一个示例表:
Y*,I6,Y*
请注意,在具有不同组合的(先前定义的)照明适配器后面增加了4个底座。在这里,我们将使用 [Data]
Sample_ID,Description
ID-1-1,ID-1-1,GAACTGATGC,TCGTGGATGC,ID-1-2,GAACTGCGAT,TCGTGGCGAT,ID-2-1,AGGTCAATGC,CTACAAATGC,ID-2-2,AGGTCACGAT,CTACAACGAT,
之类的--use-bases-mask
自变量。这是一个非常虚拟的示例,用于说明bcl2fastq的工作方式。
两个主要困难:
- 您必须知道所有可能的组合才能将其放入样品表。如果您使用一种UMI条形码(随机基数),则不能这样做。
- 您必须确切地知道在哪个周期读取条形码,以相应地使用
Y*,I10,Y*
自变量。
也许我可以通过使用示例表和运行的bcl2fastq命令更好地理解您要实现的目标。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。