微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

改进 PySpark 实现以在图中查找连接组件

如何解决改进 PySpark 实现以在图中查找连接组件

我目前正在实现这篇论文的实现,描述映射减少算法到连接组件:https://www.cse.unr.edu/~hkardes/pdfs/ccf.pdf 作为大数据世界的初学者,我开始使用一个小图实现 CCF-Iterate(w. 二次排序)算法:6 个边和 8 个节点。我正在使用免费版本的 Databricks 运行此代码

给出结果需要1分钟。对于这样一个小例子来说,这似乎太长了。我怎样才能减少这个时间?什么样的优化是可能的?任何建议都会非常感激。 这个想法是测试这个算法的大图

PySpark 代码

graph = sc.parallelize([ (2,3),(1,2),(2,4),(3,5),(6,7),(7,8)])
counter_new_pair = sc.accumulator(1)

while (counter_new_pair.value > 0):
  
  counter_new_pair = sc.accumulator(0)

  #CCF Iterate Sorting
  mapping_1 = graph.map(lambda x : (x[0],x[1]))
  mapping_2 = graph.map(lambda x : (x[1],x[0]))
  fusion = mapping_1.union(mapping_2)
  fusion = fusion.groupByKey().map(lambda x : (x[0],list(x[1])))

  fusion = fusion.map(lambda x : (x[0],sorted(x[1])))
  values = fusion.filter(lambda x : x[1][0] < x[0])
  
  key_min_value = values.map(lambda x : (x[0],x[1][0]))
  values = values.map(lambda x : (x[1][0],x[1][1:]))
  values = values.filter(lambda x : len(x[1]) != 0)
  values = values.flatMap(lambda x : [(val,x[0]) for val in x[1]])
  values.foreach(lambda x: counter_new_pair.add(1))
  joined = values.union(key_min_value)

  # CCF Dedup

  mapping = joined.map(lambda x : ((x[0],x[1]),None))
  graph = mapping.groupByKey().map(lambda x : (x[0][0],x[0][1]))
  
  

谢谢

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?