技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

当将JSON文件读入Spark时,python – _corrupt_record错误

时间：2019-06-05分类：JavaScript作者：编程之家

我有这个 JSON 文件

{
    "a": 1,"b": 2
}

这是使用Python json.dump方法获得的.
现在,我想使用pyspark将此文件读入Spark中的DataFrame.以下文档,我在这样做

sc = SparkContext()

sqlc = sqlContext(sc)

df = sqlc.read.json(‘my_file.json’)

print df.show()

打印声明：

+---------------+
|_corrupt_record|
+---------------+
|              {|
|       "a": 1,|
|         "b": 2|
|              }|
+---------------+

任何人都知道发生了什么,为什么不正确地解释文件？

解决方法

您的输入文件中每行需要一个json对象,请参阅 http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameReader.json

如果你的json文件看起来像这样,它会给你预期的数据帧：

{ "a": 1,"b": 2 }
{ "a": 3,"b": 4 }

....
df.show()
+---+---+
|  a|  b|
+---+---+
|  1|  2|
|  3|  4|
+---+---+

原文地址：https://www.jb51.cc/js/151935.html

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：JavaScript – 测试元素是否可以包下一篇：javascript – 可见性影响DOM操纵性

相关推荐

自定义web弹窗/层：简易风格的msg与可拖放的dialog，生成博客园文章目录弹窗

前言做过web项目开发的人对layer弹层组件肯定不陌生，作为layUI的一个重要组件，使用简单、接口参数丰富，功能健壮，深受广大开发者的喜爱，作为一个热（经）爱（常）工（划）作（水），喜欢钻研探索技术的程序员（狗），我们自己来实现一个web弹窗/层，一窥layer的本源（/手动滑稽脸），进步，从

作者：huanzi-qch 时间：2024-09-25

nice-validator表单验证插件的简单使用

前言前端表单校验是过滤无效数据、假数据、有毒数据的第一步，是数据安全的第一道关卡，虽然我们不能100%相信客户端提交的数据（真正的校验还得在服务端进行），但设置前端表单校验也是至关重要的，自己写逻辑代码一个一个表单字段去校验不现实，又不想自己造轮子，使用jquery插件是不错的选择，这里记录一下在

作者：huanzi-qch 时间：2024-09-25

基于“formData批量上传的多种实现” 的多图片预览、上传的多种实现

前言图片上传是web项目常见的需求，我基于之前的博客的代码（请戳：formData批量上传的多种实现）里的第三种方法实现多图片的预览、上传，并且支持三种方式添加图片到上传列表：选择图片、复制粘贴图片、鼠标拖拽图片，同时支持从上传列表中移除图片（点击“X”号）效果演示选择图片页面操作后台接参

作者：huanzi-qch 时间：2024-09-25

踹掉后端，前端导出Excel！

前言导出Excel文件这个功能，通常都是在后端实现返回前端一个下载链接，但有时候我们只想导出前端页面上已经有了的数据，不想再调后端导出接口浪费服务器资源，学习本文demo例子，我们踹掉后端，直接在前端导出Excel！代码实现 1、利用Blob对象构造一个a标签的href链接，从而实现文件下载，E

作者：huanzi-qch 时间：2024-09-25

Web Worker——js的多线程，实现统计博客园总阅读量、总评论量、总推荐量

前言众所周知，js是单线程的，从上往下，从左往右依次执行，当我们有耗时的任务需要处理时，便会阻塞线程造成页面卡顿等问题。web worker的目的，就是为JavaScript创造多线程环境，允许主线程将一些任务分配给子线程。在主线程运行的同时，子线程在后台运行，两者互不干扰。等到子线程完成计算任务

作者：huanzi-qch 时间：2024-09-25

select标签禁止选择但又能通过序列化form表单传值到后台

前言项目开发中，我们可能会碰到这样的需求：select标签，禁止选择但又能通过序列化form表单传值到后台，但是当我们使用disabled="disabled"时发现，无法序列化form获取到select标签的值；当我们使用readonly="readonly&quo

作者：huanzi-qch 时间：2024-09-25

还在问跨域？本文记录js跨域的多种实现实例

前言众所周知，受浏览器同源策略的影响，产生了跨域问题，那么我们应该如何实现跨域呢？本文记录几种跨域的简单实现前期准备为了方便测试，我们启动两个服务，10086（就是在这篇博客自动生成的项目，请戳：SpringBoot系列——Spring-Data-JPA（究极进化版）自动生成单表基础增、删、

作者：huanzi-qch 时间：2024-09-25

formData批量上传的多种实现

前言最近项目需要批量上传附件，查了下资料，网上很多但看着一脸懵，只贴部分代码，介绍也不详细，这里记录一下自己的采坑与多种实现，以免以后忘记。这里先介绍下FormData对象，以下内容摘自：https://developer.mozilla.org/zh-CN/docs/Web/API/FormD

作者：huanzi-qch 时间：2024-09-25

laypage 物理分页与逻辑分页实例

前言以下介绍摘自 layui官网laypage layPage 致力于提供极致的分页逻辑，既可轻松胜任异步分页，也可作为页面刷新式分页。自 layui 2.0 开始，无论是从核心代码还是API设计，layPage 都完成了一次蜕变。清爽的UI、灵活的排版，极简的调用方式，这一切的优质元素

作者：huanzi-qch 时间：2024-09-25

乐观锁机制解决多层嵌套异步ajax问题

前言在项目中我们通常需要使用ajax异步嵌套去请求数据并做数据的展示，当我们多次快速的多次的发起ajax，因为ajax是异步的，每个ajax触发回调的时间都是不可控的，这样就会造成前面发起的ajax跟后面发起的ajax都有可能去修改同一个DOM，导致展示的数据顺序错乱或数据重复，我们希望DOM展示

作者：huanzi-qch 时间：2024-09-25

小编推荐

苹果市值2025年有望达4万亿美元