微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用 Scikit 和 networkx 在网络中进行标签传播

如何解决使用 Scikit 和 networkx 在网络中进行标签传播

我以前从未使用过标签传播,也没有在 Python 中使用过,但现在我需要检查这是否适合我的问题。 我有一个如下所示的数据集

User                    Connection               score
        xxx.dean.martin       vera.miles           10
        xxx.dean.martin       christopher.sole     5     
        xxx.dean.martin       elis.con             NaN    
        xxx.catherine.rice    vera.miles           NaN
        xxx.vera.miles        NaN                  0

其中 score 仅取决于 User,并且可以取值 0、5 或 10。 我想构建一个图表,其中 Users 是节点,Connection 是目标。这意味着,例如,xxx.dean.martin 链接vera.milesscore 应该是分配给节点的值(例如,xxx.dean.martin)。 如示例所示,由于缺少某些值 (NaN),我想使用标签传播来分配 scores 缺失的位置。看最后一个例子,

      `xxx.vera.miles        NaN                0.0`

当我在网络中可视化时,我应该期待 vera.miles,dean.martincatherine.rice间的链接。基于邻居,我想通过节点分配('transfer'/'propagate')得分值。

作为数据集的输出示例(应该来自图形可视化):

 User                    Connection               score
            xxx.dean.martin       vera.miles         10
            xxx.dean.martin       christopher.sole   5
            xxx.dean.martin       elis.con           5  # just the average of the nodes which User is linked with   
            xxx.catherine.rice    vera.miles         0
            xxx.vera.miles        NaN                0

解决方法

根据您的设置,这不是标签传播的标准设置,因为节点和标签的含义以某种方式混合在一起。

要通过计算均值的 1 步传播获得预期输出,您只需执行以下操作:

df.fillna(df.groupby('User',as_index=False).mean()).fillna(0)

用均值填充 NaN,用 NaN 填充剩余的 0

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。