如何解决从IGraphPython中的多个文件读取图
我有多个节点列表和边列表,它们形成一个大图,我们称其为maingraph
。我当前的策略是先阅读所有节点列表,然后使用add_vertices
进行导入。然后,每个节点都会获得一个内部ID,该ID取决于它们被提取的顺序,因此并不十分可靠(如我所读,如果您删除一个ID,则所有ID均高于删除的ID)。我为每个节点分配了一个name
属性,该属性对应于我使用的外部ID,因此我可以跟踪框架之间的节点和一个type
属性。
现在,如何添加边缘?当我阅读边缘列表时,它将开始创建一个新图形(subgraph
),因此内部ID将从0开始。因此,将图形与maingraph.add_edges(subgraph.get_edgelist)
“合并”不可避免地会失败。
可以解决此问题,并使用name
和maingraph
中的subgraph
属性来找出每个边缘的入射节点在{{1}中具有的内部ID }:
maingraph
然后我尝试了
def _get_real_source_and_target_id(edge):
''' takes an edge from the to-be-added subgraph and gets the ids of the corresponding nodes in the
maingraph by their name '''
source_id = maingraph.vs.select(name_eq=subgraph.vs[edge[0]]["name"])[0].index
target_id = maingraph.vs.select(name_eq=subgraph.vs[edge[1]]["name"])[0].index
return (source_id,target_id)
但是那太慢了。该图具有数百万个节点和边,使用快速但不正确的edgelist = [_get_real_source_and_target_id(x) for x in subgraph.get_edgelist()]
maingraph.add_edges(edgelist)
方法需要10秒钟来加载。使用上述正确的方法,它需要几分钟(我通常会在5分钟后将其停止)。我将不得不做数万次。由于加载速度快,我从NetworkX切换到了Igraph,但是如果我必须这样做,那并没有太大帮助。
有人有更聪明的方法吗?任何帮助,不胜感激!
谢谢!
解决方法
没关系,我发现错误是在其他地方。我使用numpy.loadtxt()
以字符串的形式读取节点的名称,当名称以大于5的数字递增数字时,它以某种方式做了有趣的事情(请参阅我的问题报告here)。因此,上述解决方案在尝试获取numpy弄乱了节点名称的节点时陷入了困境。 maingraph.vs.select(name_eq=subgraph.vs[edge[0]]["name"])[0].index
在找不到节点时只是坐在那里。现在,我使用熊猫来读取节点名称,并且可以正常工作。
上面的解决方案仍然比我以前的NetworkX解决方案快10倍,所以我将保留它对某人的帮助。随时删除它。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。