微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

我们如何比较图聚类结果以在蛋白质-蛋白质相互作用网络中找到相似的基因?

如何解决我们如何比较图聚类结果以在蛋白质-蛋白质相互作用网络中找到相似的基因?

我们的目标是在 ppi 网络数据集中找到类似的基因,该数据集采用加权边列表的形式。使用图聚类算法后,我们如何衡量这些聚类的相似性?

我们数据集的一个示例行:

Gene1 Gene2 Weight
10021 23416 0.1365
10040 57679 0.1244

提前致谢。

解决方法

Adjusted rand index、Jaccard 相似度、完整性、同质性,这些都是应该给出聚类相似度概念的度量。它们都在 scipy 中实现。

如果您的聚类数量不是太多,比如说不超过 20 个,我非常喜欢制作一个 contingency matrix 来分析两个不同的聚类结果。

当然,在这些场景中您不会获得基本事实,但您仍然可以使用上述所有指标来查找结果之间的相似性。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。