如何解决重复函数在 BLAST 命中表上重新调整非重复结果已解决
编辑:回到数据上,我刚刚意识到发生了什么。 Python 将重复项的第一个实例视为唯一序列,其余部分视为实际重复项 - 这就是为什么我得到看起来像非重复结果的原因。这是非常愚蠢的,我没有仔细检查原始表格是我的错。如果有人也尝试这样做并想知道到底发生了什么,我将把它搁置一旁。 Python 正在做它的工作 - 我没有!
python 新手(3 周!)并且不出所料地遇到困难。我正在研究 BLAST 命中表,并试图通过仅在登录号上使用重复来识别来自同一命中的序列。我不想丢弃这些结果,而是将它们保存到一个新文件中,这样我就可以看看是否有任何有趣的弹出窗口。
表格的一个片段(这纯粹是一个例子,它包括 11 列,但在这里打印它们似乎有点过分):
查询 | 加入 | % 身份 | 不匹配 | 差距 | 开始 | 结束 |
---|---|---|---|---|---|---|
Q112 | ABCDEFG111222 | 90.99 | 9 | 3 | 1000 | 2000 |
Q112 | HIJKLMN222111 | 80 | 14 | 98 | 128 | 900 |
Q112 | OPQRSTUV33111 | 76 | 2 | 23 | 12 | 900 |
我正在使用 Pandas 导入文件以使其成为数据框,然后使用 reset_index 将查询编号替换为索引。
然后我做了以下事情:
- 查看我在 Accession 列中是否有任何重复项
print(file.Accession.duplicated().sum())
- 将这些结果打印到新的数据框中(n 相同)
filedupes = (file.loc[file.Accession.duplicated()])
- 最后,将其写入 csv 以供我查看
fileDupes.to_csv('Filedupes.csv',sep='\t',encoding='utf-8')
这做了一半的工作,因为我的 CSV 确实包含仅基于登录号的重复条目,但它还包含一些唯一的登录号条目。这些条目似乎只有前 2 个字母与其他条目相同,但其余的都是唯一的
即我有 XM_JK1234343 和 XM_983HSJAN 和 XM_83QMZBDH1 尽管没有其他条目存在(已使用查找/替换检查)。其他 11 列也是这些奇怪条目所独有的。
我被难住了,这是我的代码吗?我是否没有指定足够的内容并允许将上述示例与其他合法副本一起放入?我试图找出是否有人问过类似的问题,但没有成功 - 提前感谢您的任何见解,如果这是愚蠢的错误,请提前道歉!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。