将 multifasta 文件拆分为具有相同数量的加入号的文件

如何解决将 multifasta 文件拆分为具有相同数量的加入号的文件

我有一个包含数千个登录号的文件：

看起来像这样..

>NC_033829.1 Kallithea virus isolate DrosEU46_Kharkiv_2014,complete genome
AGTCAGCAACGTCGATGTGGCGTACAATTTCTTGATTACATTTTTGTTCCTAACAAAATGTTGATATACT

>NC_020414.2 Escherichia phage UAB_Phi78,complete genome
TAGGCGTGTGTCAGGTCTCTCGGCCTCGGCCTCGCCGGGATGTCCCCATAGGGTGCCTGTGGGCGCTAGG

如果想将其拆分为多个文件，每个文件都有一个登录号，那么我可以使用以下代码

awk -F '|' '/^>/ {F=sprintf("%s.fasta",$2); print > F;next;} {print >> F;}' < yourfile.fa

我有一个包含数千个登录号（又名 >NC_*）的文件，我想将其拆分，例如每个文件包含约 5000 个登录号。因为我是 awk/bash/python 的新手，所以我很难找到一个巧妙的解决方案

感谢任何想法或评论

解决方法

假设：部分由空行分隔。

算法：

分割文件
从部分提取入藏号
将部分输出到以登录号命名的文件名。

awk 术语：“记录”将是我们的部分 - 文件的一部分由空行分隔（即一个接一个的两个换行符。“字段”通常由空格分隔 - 通过空格分隔 或 > 个字符的第二个字段将是登录号。

只需将记录分隔符设置为两个换行符，将字段分隔符设置为 > 或空格，然后将行输出到以第二个字段命名的文件：

awk -v RS='' -v FS='[> ]' '{f=($2 ".txt"); print >> f; close(f)}'

@edit 将 > 更改为 >> 并将 RS='\n\n' 更改为 RS=''

@edit 并添加关闭

从您的问题中并不清楚每个输入块的“登录号”是唯一的（不要假设阅读您问题的人对您的域一无所知——对我们来说，这只是几行文本）。如果您将问题表述为只说每个输出文件需要 5000 个换行分隔块，而不是 5000 个登录号，那就更清楚了。

看过您发布的答案后，现在很明显这是您应该使用的：

awk -v RS= -v ORS='\n\n' '
    (NR%5000) == 1 { close(out); out="myseq"(++n_seq)".fa" }
    { print > out }
' my_sequences.fa

非常感谢您的回答，我学到了很多。我真正想做的是将 multifasta 文件拆分为具有相同登录号数量的文件。这是我经过长时间的战斗和同事的帮助后的答案

awk 'BEGIN {n_seq=0;} /^>/ {if(n_seq%5000==0){file=sprintf("myseq%d.fa",n_seq);} print >> file; n_seq++; next;} { print >> file; }' < my_sequences.fa

在这里创建新的 fasta 文件，其中每个文件都有 5000 个登录号，也就是标题

谢谢大家

最好使用Biopython的Bio.SeqIO来处理FASTA文件的读写。然后，您只需要某种方式根据需要对记录（SeqRecord 对象）进行分组。我的偏好是让分组函数产生迭代器：

from itertools import chain,islice

from Bio import SeqIO


def grouper(n,iterable):
    it = iter(iterable)
    while True:
        chunk_it = islice(it,n)
        try:
            first = next(chunk_it)
        except StopIteration:
            return
        yield chain((first,),chunk_it)


for idx,group in enumerate(grouper(5000,SeqIO.parse('input.fa','fasta')),1):
    SeqIO.write(group,f'out-{idx}.fa','fasta')

将 multifasta 文件拆分为具有相同数量的加入号的文件

如何解决将 multifasta 文件拆分为具有相同数量的加入号的文件

解决方法

相关推荐