微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

无法找到 hive jars 以连接到 Metastore:同时使用 pyspark 作业连接到 athena 表

如何解决无法找到 hive jars 以连接到 Metastore:同时使用 pyspark 作业连接到 athena 表

我们正在使用 sagemaker 实例连接到 AWS 中的 EMR。 我们有一些 pyspark 脚本可以卸载 athena 表并将它们作为管道的一部分进行处理。

我们使用胶水目录使用 athena 表,但是当我们尝试通过 spark submit 运行作业时,我们的作业失败了

代码片段

JProperty property = new JProperty(nameof(fields),JToken.FromObject(fields));

错误信息:

from pyspark import SparkContext,SparkConf
from pyspark.context import SparkContext
from pyspark.sql import Row,sqlContext,SparkSession
import pyspark.sql.dataframe

def process_data():
    conf = SparkConf().setAppName("app")
    sc = SparkContext(conf=conf)
    spark = SparkSession.builder\
    .config("spark.sql.catalogImplementation","hive")\
    .config("hive.metastore.client.factory.class","com.amazonaws.glue.catalog.metastore.AWSglueDataCatalogHiveClientFactory") \
    .config("hive.metastore.schema.verification","false") \
    .config("spark.hadoop.metastore.catalog.default","hive") \
    .enableHiveSupport() \
    .getorCreate()
    df1 = spark.read.table(“db1.tb1”)
    df2 = spark.read.table("db1.tb2”)
    print(df1.count())
    print(df2.count())

if __name__ == "__main__":
    process_data()

请求

我们如何确保在 sagemaker 实例上运行的 python 脚本使用 athena 表。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。