微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

当我尝试使用 Pyspark 从 Amazon Keyspaces 获取数据时,出现 Unsupported partitioner: com.amazonaws.cassandra.DefaultPartitioner 错误

如何解决当我尝试使用 Pyspark 从 Amazon Keyspaces 获取数据时,出现 Unsupported partitioner: com.amazonaws.cassandra.DefaultPartitioner 错误

我在 Java 或 Hadoop 生态系统方面没有经验。我使用 Datastax 中的 spark-cassandra-connector 将 Spark 集群配置为连接到 Amazon Keyspaces。我正在使用 Pyspark 从 Cassandra 获取数据。我可以成功连接到 Keyspaces/Cassandra 集群。但是,当我尝试从中获取数据时。

df = spark.sql("SELECT * FROM cass.tutorialkeyspace.tutorialtable")
print ("Table Row Count: ")
print (df.count())

我收到此错误

Unsupported partitioner: com.amazonaws.cassandra.DefaultPartitioner

是的,keyspace & table 存在并且有数据。我该如何解决/解决这个问题?谢谢!

解决方法

Spark Cassandra 连接器依赖于特定的分区器实现来定义数据拆分等。目前没有解决此问题的方法,直到有人将相应的 TokenFactory 的实现添加到 this code 中。它不应该很复杂,应该由对它感兴趣的人来完成。

,

感谢您的反馈。此时,您可以使用 Cassandra Spark Connector 写入 Keyspace。阅读需要对令牌愤怒的支持。请参阅以下文档页面以查看支持的 API 列表 https://docs.aws.amazon.com/keyspaces/latest/devguide/cassandra-apis.html

虽然我们目前没有时间表可以分享,但我们会根据客户反馈确定路线图的优先级。我们一直在发布新功能。要详细了解我们的路线图和即将推出的功能,请联系您的 AWS 客户经理。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。