如何解决程序来比对两个同源序列的fasta文件?
我有两组来自两个不同蝙蝠物种基因组的相应同源序列,每组都在自己的fasta文件中。
例如,对于蝙蝠物种1,我在sp1.fasta中有一组序列,格式为
> ID_10
GAATCCCCCTATGATGTCCACGATTATATTCGTTCCTGCCTGGGGGACACGCTGGAAGCCA
> ID_1
TCAAGTTGCTCAGCGGACGCATGACGCCCCCGTTGTACCTGCAGCTGCTCATGGCTATTTC
> ID_40
TCGGGTTGCTATTATGCGGCGCAAAATAATCGGAGGAAGCGAGGAAAACTTGGGAATTTCC
...
> ID_1963
TCGGGTTGCTATTATGCGGCGCAAAATAATCGGAGGAAGCGAGGAAAACTTGGGAATTTCC \
对于蝙蝠2,我在sp1.fasta中有一组序列,格式为
> ID_167
CCCATGCCGGCTCCGGTAGAATCCAGGCGGCGAGTCCGATTGGTTGGGCGCACCAAAACAA
> ID_500
TTACAAGGGTTCAATTAAAAGATATCTTAATTCTAAATGATATAATAGAAAATATATAATA
...
> ID_1
TCAAGTTGCTCAGCGGACGCATGAGGCCCCCGTTGTACCTGCAGCTGGTCATGGCTATTTC
> ID_2
TCGGGTTGCAATTATGCGGCGCAAAATAATCGGAGGAAGCGAGGAATACTTGGGAATTTCC
...
> ID_1895
GGACCACTCAGGCTGAGGTACAGGGCAGAGAAGGACACTTCCAGAGAGATACCTCAGCATG \
每个fasta文件的序列数量略有不同(物种1具有1963个序列,物种2具有1895个序列)。但是,fasta文件中的序列都具有一个ID作为fasta头-并且集合之间匹配的fasta头ID表示同源序列。而且,所有序列的长度相同(111个碱基对)
我正在寻找一个程序,使我可以对这些同源序列集进行对齐(即,对每个同源对进行对齐,并按Fasta标头ID进行匹配)。最终目标是构建同源物的成对距离矩阵
对于这个问题我使用的术语不正确,我深表歉意!我对基因组学和计算学都非常陌生。任何帮助将不胜感激
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。