从IGraphPython中的多个文件读取图

如何解决从IGraphPython中的多个文件读取图

我有多个节点列表和边列表，它们形成一个大图，我们称其为maingraph。我当前的策略是先阅读所有节点列表，然后使用add_vertices进行导入。然后，每个节点都会获得一个内部ID，该ID取决于它们被提取的顺序，因此并不十分可靠（如我所读，如果您删除一个ID，则所有ID均高于删除的ID）。我为每个节点分配了一个name属性，该属性对应于我使用的外部ID，因此我可以跟踪框架之间的节点和一个type属性。

现在，如何添加边缘？当我阅读边缘列表时，它将开始创建一个新图形（subgraph），因此内部ID将从0开始。因此，将图形与maingraph.add_edges(subgraph.get_edgelist)“合并”不可避免地会失败。

可以解决此问题，并使用name和maingraph中的subgraph属性来找出每个边缘的入射节点在{{1}中具有的内部ID }：

maingraph

然后我尝试了

def _get_real_source_and_target_id(edge):
    ''' takes an edge from the to-be-added subgraph and gets the ids of the corresponding nodes in the
    maingraph by their name '''
    source_id = maingraph.vs.select(name_eq=subgraph.vs[edge[0]]["name"])[0].index
    target_id = maingraph.vs.select(name_eq=subgraph.vs[edge[1]]["name"])[0].index
    return (source_id,target_id)

但是那太慢了。该图具有数百万个节点和边，使用快速但不正确的edgelist = [_get_real_source_and_target_id(x) for x in subgraph.get_edgelist()] maingraph.add_edges(edgelist)方法需要10秒钟来加载。使用上述正确的方法，它需要几分钟（我通常会在5分钟后将其停止）。我将不得不做数万次。由于加载速度快，我从NetworkX切换到了Igraph，但是如果我必须这样做，那并没有太大帮助。

有人有更聪明的方法吗？任何帮助，不胜感激！

谢谢！

解决方法

没关系，我发现错误是在其他地方。我使用numpy.loadtxt()以字符串的形式读取节点的名称，当名称以大于5的数字递增数字时，它以某种方式做了有趣的事情（请参阅我的问题报告here）。因此，上述解决方案在尝试获取numpy弄乱了节点名称的节点时陷入了困境。 maingraph.vs.select(name_eq=subgraph.vs[edge[0]]["name"])[0].index在找不到节点时只是坐在那里。现在，我使用熊猫来读取节点名称，并且可以正常工作。

上面的解决方案仍然比我以前的NetworkX解决方案快10倍，所以我将保留它对某人的帮助。随时删除它。

从IGraphPython中的多个文件读取图

如何解决从IGraphPython中的多个文件读取图

解决方法

相关推荐