微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何产生RDDpyspark中每个条目的不同数据类型组件以计算不同

如何解决如何产生RDDpyspark中每个条目的不同数据类型组件以计算不同

我有一个 RDD,它有两个由 TAB 分隔的组件。第一个node id ,第二个是一个字典,节点 id 作为键作为字符串,值作为权重。我需要计算图中的不同节点。

["2\t{'3': 1}","3\t{'2': 2}","4\t{'1': 1,'2': 1}","5\t{'4': 3,'2': 1,'6': 1}","6\t{'2': 1,'5': 2}","7\t{'2': 1,'5': 1}","8\t{'2': 1,"9\t{'2': 1,"10\t{'5': 1}","11\t{'5': 2}"]

我希望有 11 个不同的节点作为我的计数,其中 11 是来自输出的不同值,按行,如下:

2,'3'
3,'2'
4,'1','2'
5,'4','2','6'
6,'5'
7,'5'
8,'5'
9,'5'
10,'5'
11,'5'

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。