如何解决如何在生物信息学上并行运行 python 脚本
我希望使用 python 读取 fasta 序列文件并将其转换为熊猫数据帧。我使用以下脚本:
from Bio import SeqIO
import pandas as pd
def fasta2df(infile):
records = SeqIO.parse(infile,'fasta')
seqList = []
for record in records:
desp = record.description
# print(desp)
seq = list(record.seq._data.upper())
seqList.append([desp] + seq)
seq_df = pd.DataFrame(seqList)
print(seq_df.shape)
seq_df.columns=['strainName']+list(range(1,seq_df.shape[1]))
return seq_df
if __name__ == "__main__":
path = 'path/to/the/fasta/file'
input = path + 'GISAIDspikeprot0119.selection.fasta'
df = fasta2df(input)
“GISAIDspikeprot0119.selection.fasta”文件可以在 https://drive.google.com/file/d/1F5Ir5S6h9rFsVUQkDdZpomiWo9_bXtaW/view?usp=sharing
找到该脚本只能在我的 linux 工作站上以一个 cpu 内核运行,但是是否可以使用更多内核(多个进程)运行它,以便它可以运行得更快?代码是什么?
非常感谢!
解决方法
在为您的问题投入更多 CPU 之前,您应该花一些时间检查代码的哪些部分速度较慢。
在您的情况下,您在每次循环迭代中都执行昂贵的转换 seq_df = pd.DataFrame(seqList)
。这只是在浪费 CPU 时间,因为结果 seq_df
在下一次迭代中被覆盖。
您的代码在我的机器上花费了 15 多分钟。将 pd.DataFrame(seqList)
和 print
语句移出循环后,时间缩短到约 15 秒。
def fasta2df(infile):
records = SeqIO.parse(infile,'fasta')
seqList = []
for record in records:
desp = record.description
seq = list(record.seq._data.upper())
seqList.append([desp] + seq)
seq_df = pd.DataFrame(seqList)
seq_df.columns = ['strainName'] + list(range(1,seq_df.shape[1]))
return seq_df
事实上,几乎所有时间都花在 seq_df = pd.DataFrame(seqList)
行上 - 对我来说大约 13 秒。通过将 dtype 显式设置为字符串,我们可以将其缩短到大约 7 秒:
def fasta2df(infile):
records = SeqIO.parse(infile,'fasta')
seqList = []
for record in records:
desp = record.description
seq = list(record.seq._data.upper())
seqList.append([desp] + seq)
seq_df = pd.DataFrame(seqList,dtype="string")
seq_df.columns = ['strainName'] + list(range(1,seq_df.shape[1]))
return seq_df
有了这种新的性能,我非常怀疑您是否可以通过并行处理进一步提高速度。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。