微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Spark 将逗号分隔的行数组拆分为第一个值和其余值

如何解决Spark 将逗号分隔的行数组拆分为第一个值和其余值

我有一个数据集:

val raw_data = sc.parallelize(Array(
    "Batch1,i,10,j,20","Batch2,20,k,30,m,50","Batch3,n,30"
))

在进一步处理数据之前,我想将第一个条目或每一行拆分到它的列中。我试过了:

raw_data.map(x => x.split(",")).map(x=>(x(0),x))

但后来我得到:

"Batch1","Batch1,"Batch2","Batch3",30"

当我在 python 中工作时,我可以做如下索引:

x(1:)

选择第一个值之后的所有内容。 Scala 中有类似的东西吗?

raw_data.map(x => x.split(",x(1:)))

解决方法

您可以使用 headtail

raw_data.map(x => x.split(",")).map(x=>(x.head,x.tail))

此外,如果您不希望结果中出现不必要的空格,您可能希望在 "," 而不是 "," 上拆分。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。