如何在生物信息学上并行运行 python 脚本

如何解决如何在生物信息学上并行运行 python 脚本

我希望使用 python 读取 fasta 序列文件并将其转换为熊猫数据帧。我使用以下脚本：

from Bio import SeqIO
import pandas as pd

def fasta2df(infile):
    records = SeqIO.parse(infile,'fasta')
    seqList = []
    for record in records:
        desp = record.description
        # print(desp)
        seq = list(record.seq._data.upper())
        seqList.append([desp] + seq)
        seq_df = pd.DataFrame(seqList)
        print(seq_df.shape)
        seq_df.columns=['strainName']+list(range(1,seq_df.shape[1]))
    return seq_df


if __name__ == "__main__":
    path = 'path/to/the/fasta/file'
    input = path + 'GISAIDspikeprot0119.selection.fasta'
    df = fasta2df(input)

“GISAIDspikeprot0119.selection.fasta”文件可以在 https://drive.google.com/file/d/1F5Ir5S6h9rFsVUQkDdZpomiWo9_bXtaW/view?usp=sharing

找到

该脚本只能在我的 linux 工作站上以一个 cpu 内核运行，但是是否可以使用更多内核（多个进程）运行它，以便它可以运行得更快？代码是什么？

非常感谢！

解决方法

在为您的问题投入更多 CPU 之前，您应该花一些时间检查代码的哪些部分速度较慢。

在您的情况下，您在每次循环迭代中都执行昂贵的转换 seq_df = pd.DataFrame(seqList)。这只是在浪费 CPU 时间，因为结果 seq_df 在下一次迭代中被覆盖。

您的代码在我的机器上花费了 15 多分钟。将 pd.DataFrame(seqList) 和 print 语句移出循环后，时间缩短到约 15 秒。

def fasta2df(infile):
    records = SeqIO.parse(infile,'fasta')
    seqList = []
    for record in records:
        desp = record.description
        seq = list(record.seq._data.upper())
        seqList.append([desp] + seq)
    seq_df = pd.DataFrame(seqList)
    seq_df.columns = ['strainName'] + list(range(1,seq_df.shape[1]))
    return seq_df

事实上，几乎所有时间都花在 seq_df = pd.DataFrame(seqList) 行上 - 对我来说大约 13 秒。通过将 dtype 显式设置为字符串，我们可以将其缩短到大约 7 秒：

def fasta2df(infile):
    records = SeqIO.parse(infile,'fasta')
    seqList = []
    for record in records:
        desp = record.description
        seq = list(record.seq._data.upper())
        seqList.append([desp] + seq)
    seq_df = pd.DataFrame(seqList,dtype="string")
    seq_df.columns = ['strainName'] + list(range(1,seq_df.shape[1]))
    return seq_df

有了这种新的性能，我非常怀疑您是否可以通过并行处理进一步提高速度。

如何在生物信息学上并行运行 python 脚本

如何解决如何在生物信息学上并行运行 python 脚本

解决方法

相关推荐