如何解决Spark 将逗号分隔的行数组拆分为第一个值和其余值
val raw_data = sc.parallelize(Array(
"Batch1,i,10,j,20","Batch2,20,k,30,m,50","Batch3,n,30"
))
在进一步处理数据之前,我想将第一个条目或每一行拆分到它的列中。我试过了:
raw_data.map(x => x.split(",")).map(x=>(x(0),x))
但后来我得到:
"Batch1","Batch1,"Batch2","Batch3",30"
当我在 python 中工作时,我可以做如下索引:
x(1:)
选择第一个值之后的所有内容。 Scala 中有类似的东西吗?
即
raw_data.map(x => x.split(",x(1:)))
解决方法
您可以使用 head
和 tail
:
raw_data.map(x => x.split(",")).map(x=>(x.head,x.tail))
此外,如果您不希望结果中出现不必要的空格,您可能希望在 ","
而不是 ","
上拆分。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。