我有这个
JSON文件
{ "a": 1,"b": 2 }
这是使用Python json.dump方法获得的.
现在,我想使用pyspark将此文件读入Spark中的DataFrame.以下文档,我在这样做
sc = SparkContext()
df = sqlc.read.json(‘my_file.json’)
print df.show()
打印声明:
+---------------+ |_corrupt_record| +---------------+ | {| | "a": 1,| | "b": 2| | }| +---------------+
任何人都知道发生了什么,为什么不正确地解释文件?
解决方法
您的输入文件中每行需要一个json对象,请参阅
http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameReader.json
如果你的json文件看起来像这样,它会给你预期的数据帧:
{ "a": 1,"b": 2 } { "a": 3,"b": 4 } .... df.show() +---+---+ | a| b| +---+---+ | 1| 2| | 3| 4| +---+---+
原文地址:https://www.jb51.cc/js/151935.html
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。