如何解决如何将 spark 数据帧转换为适合 hbase 批量放置的 ArrayByte?
我正在从事 hbase 项目,我们必须将数据摄取到 HBase 中。 我们读取收到的文件并将这些数据作为数据帧获取。
现在我必须将该数据帧转换为 Array[Byte],Array[(Array[Byte],Array[Byte],Array[Byte])]).
以便我可以在 hbase 上执行批量放置。
假设我有一个像下面这样的数据框
case class Employee(key:String,name:String,address:String)
val df = Seq(Employee("1","abc","xyz"),Employee("2","def","xyz")).toDF()
df.show()
键 | 姓名 | 地址 |
---|---|---|
1 | ABC | xyz |
2 | 定义 | xyz |
使用批量放置将此数据帧转换为 RDD[Array[Byte],Array[Byte])])] 以存储在 HBASE 中的有效方法是什么。
注意:假设键是用 hbase 的 rowkey 标记的。假设一些随机的 CF 和列名来填充 RDD
提前致谢。
解决方法
我无法比这更好地解释它:https://docs.datafabric.hpe.com/62/Spark/BulkLoadingHBasewithSpark.html
一切都在那里。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。