如何解决缺少使用 PySpark 将数据引入 Azure 数据资源管理器的库
我正在尝试使用 PyCharm IDE 通过 PySpark 将数据提取到 Azure 数据资源管理器中。但是,我在运行代码时遇到了很多与缺少库相关的问题。
根据Azure Data Explorer connector's page,我需要安装connector's jar和两个依赖jar kusto-ingest和kusto-data。
在下载所有这 3 个 jar 并将它们导入 PySpark 后,我无法继续我的数据摄取,它不断返回我丢失的库错误。第一个是azure-storage lib,然后我安装并导入了jar,它要求adal4j lib,我也这样做,它要求oauth2 lib,然后是json lib,azure-client-authentication lib,javax mail lib ,等等。
我已经安装了 10 多个 jar,但仍然无法运行此摄取。我做错了什么吗?
我的 PySpark 版本是 2.4。你可以在下面看到我的代码:
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.master('local[*]') \
.appName("Teste") \
.config('spark.jars','kusto-spark_2.4_2.11-2.5.2.jar,kusto-data-2.4.1.jar,kusto-ingest-2.4.1.jar,azure-storage-8.3.0.jar,json-20180813.jar,adal4j-1.6.5.jar') \
.getorCreate()
# loading a test csv file
df = spark.read.csv('MOCK_DATA.csv',header=True,sep=',')
df.write.format("com.microsoft.kusto.spark.datasource")\
.option("kustoCluster","myclustername")\
.option("kustoDatabase","mydatabase")\
.option("kustoTable","mytable")\
.option("kustoAadAppId","myappid")\
.option("kustoAadAppSecret","mysecret")\
.option("kustoAadAuthorityID","myautorityid")\
.mode("Append")\
.save()
解决方法
使用非 maven 安装时,您需要使用包含所有依赖项的 JAR。 您可以从 github 版本中获取它: https://github.com/Azure/azure-kusto-spark/releases 或者通过克隆 repo 并运行来构建自己,如果它从特定版本中丢失 mvn 程序集:单个
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。