如何解决PySpark - 将 DStream 内容打印到文件/终端
有一个 Apache Spark 问题要问你们。我正在使用 Python 扩展的 (pyspark) 流模块来处理简单的 DStream。我已经能够解析我的 JSON 数据,因此 DStream 现在显示为“字数”。
my_stream: pyspark.DStream = ...
my_stream.pprint(4)
'''result of above is something like
(apples,4)
(peaches,2)
(cobbler,1)
'''
现在,我想将这些数据直接移植到文件中。这是我在网上找到的,但它不起作用(似乎卡在舞台上,文件中没有任何内容。)
_ = positive_cases_by_zips.foreachRDD(lambda RDD: RDD.foreach(
lambda p: print(*p,file=open("current_batch.txt","a"))))
对我能做什么有什么想法吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。