如何解决无法找到 hive jars 以连接到 Metastore:同时使用 pyspark 作业连接到 athena 表
我们正在使用 sagemaker 实例连接到 AWS 中的 EMR。 我们有一些 pyspark 脚本可以卸载 athena 表并将它们作为管道的一部分进行处理。
我们使用胶水目录使用 athena 表,但是当我们尝试通过 spark submit 运行作业时,我们的作业失败了
代码片段
JProperty property = new JProperty(nameof(fields),JToken.FromObject(fields));
错误信息:
from pyspark import SparkContext,SparkConf
from pyspark.context import SparkContext
from pyspark.sql import Row,sqlContext,SparkSession
import pyspark.sql.dataframe
def process_data():
conf = SparkConf().setAppName("app")
sc = SparkContext(conf=conf)
spark = SparkSession.builder\
.config("spark.sql.catalogImplementation","hive")\
.config("hive.metastore.client.factory.class","com.amazonaws.glue.catalog.metastore.AWSglueDataCatalogHiveClientFactory") \
.config("hive.metastore.schema.verification","false") \
.config("spark.hadoop.metastore.catalog.default","hive") \
.enableHiveSupport() \
.getorCreate()
df1 = spark.read.table(“db1.tb1”)
df2 = spark.read.table("db1.tb2”)
print(df1.count())
print(df2.count())
if __name__ == "__main__":
process_data()
请求
我们如何确保在 sagemaker 实例上运行的 python 脚本使用 athena 表。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。