无法找到 hive jars 以连接到 Metastore：同时使用 pyspark 作业连接到 athena 表

如何解决无法找到 hive jars 以连接到 Metastore：同时使用 pyspark 作业连接到 athena 表

我们正在使用 sagemaker 实例连接到 AWS 中的 EMR。我们有一些 pyspark 脚本可以卸载 athena 表并将它们作为管道的一部分进行处理。

我们使用胶水目录使用 athena 表，但是当我们尝试通过 spark submit 运行作业时，我们的作业失败了

代码片段

JProperty property = new JProperty(nameof(fields),JToken.FromObject(fields));

错误信息：

from pyspark import SparkContext,SparkConf
from pyspark.context import SparkContext
from pyspark.sql import Row,sqlContext,SparkSession
import pyspark.sql.dataframe

def process_data():
    conf = SparkConf().setAppName("app")
    sc = SparkContext(conf=conf)
    spark = SparkSession.builder\
    .config("spark.sql.catalogImplementation","hive")\
    .config("hive.metastore.client.factory.class","com.amazonaws.glue.catalog.metastore.AWSglueDataCatalogHiveClientFactory") \
    .config("hive.metastore.schema.verification","false") \
    .config("spark.hadoop.metastore.catalog.default","hive") \
    .enableHiveSupport() \
    .getorCreate()
    df1 = spark.read.table(“db1.tb1”)
    df2 = spark.read.table("db1.tb2”)
    print(df1.count())
    print(df2.count())

if __name__ == "__main__":
    process_data()

请求

我们如何确保在 sagemaker 实例上运行的 python 脚本使用 athena 表。