微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

将大量数据从Cassandra导出到CSV

我正在使用Cassandra 2.0.9存储相当大量的数据,我们说100Gb在一个列系列中。我想以快速方式将此数据导出到CSV。我试过了:

> sstable2json – 它生成很大的json文件,这很难解析 – 因为工具将数据放在一行并使用复杂的模式(例如300Mb数据文件=〜2Gb json),需要很多时间才能转储和Cassandra喜欢根据内部机制改变源文件
> copY – 在相当快的EC2实例上导致大量记录超时
> CAPTURE – 如上所述,导致超时
>分页阅读 – 我用了timeuuid,但它每秒返回大约15k的记录

我使用Amazon Ec2实例,快速存储,15 Gb RAM和4核

是否有更好的出口千兆字节数据从Cassandra到CSV?

解决方法

因为使用copY将是非常具有挑战性的,当您尝试从Cassandra导出数百万行的表时,所以我所做的就是创建简单的工具,从Cassandra表中获取块(分页)的数据块,并将其导出为CSV 。

看看我的example solution使用数据仓库的java库。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐