当我尝试使用 Pyspark 从 Amazon Keyspaces 获取数据时，出现 Unsupported partitioner: com.amazonaws.cassandra.DefaultPartitioner 错误

如何解决当我尝试使用 Pyspark 从 Amazon Keyspaces 获取数据时，出现 Unsupported partitioner: com.amazonaws.cassandra.DefaultPartitioner 错误

我在 Java 或 Hadoop 生态系统方面没有经验。我使用 Datastax 中的 spark-cassandra-connector 将 Spark 集群配置为连接到 Amazon Keyspaces。我正在使用 Pyspark 从 Cassandra 获取数据。我可以成功连接到 Keyspaces/Cassandra 集群。但是，当我尝试从中获取数据时。

df = spark.sql("SELECT * FROM cass.tutorialkeyspace.tutorialtable")
print ("Table Row Count: ")
print (df.count())

我收到此错误：

Unsupported partitioner: com.amazonaws.cassandra.DefaultPartitioner

是的，keyspace & table 存在并且有数据。我该如何解决/解决这个问题？谢谢！

解决方法

Spark Cassandra 连接器依赖于特定的分区器实现来定义数据拆分等。目前没有解决此问题的方法，直到有人将相应的 TokenFactory 的实现添加到 this code 中。它不应该很复杂，应该由对它感兴趣的人来完成。

感谢您的反馈。此时，您可以使用 Cassandra Spark Connector 写入 Keyspace。阅读需要对令牌愤怒的支持。请参阅以下文档页面以查看支持的 API 列表 https://docs.aws.amazon.com/keyspaces/latest/devguide/cassandra-apis.html。

虽然我们目前没有时间表可以分享，但我们会根据客户反馈确定路线图的优先级。我们一直在发布新功能。要详细了解我们的路线图和即将推出的功能，请联系您的 AWS 客户经理。