微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

AzureML数据集的Spark数据框中的行重复

如何解决AzureML数据集的Spark数据框中的行重复

我有一个版本化的AzureML数据集。数据仅附加,并且每周一次。因此,数据集获得“每周新版本”。它在Azure Blob容器上的组织方式如下:

.data
├── week1
│   └── data1.csv
└── weeks2
    └── data2.csv

#week1 data1.csv
country,code
United States,US
India,IN
United Kingdom,UK

#week2 data2.csv
country,code
China,CN

我在AzureML工作区中有此数据集。我在Azure Databricks Worspace中也有一个笔记本,我正在其中访问此数据集

from azureml.core import Workspace,Datastore,Dataset

subscription_id = "###"
resource_group = "####"
workspace_name = "####"

workspace = Workspace(subscription_id,resource_group,workspace_name)
datastore= workspace.get_default_datastore()

dataset_ver1= Dataset.get_by_name(workspace,name="demo_data",version=1)

print (dataset_ver1.to_pandas_dataframe())
#   country     code
#0  United States   US
#1  India   IN
#2  United Kingdom  UK

dataset_ver1.to_spark_dataframe().show(20)

#+--------------+----+
#|       country|code|
#+--------------+----+
#| United States|  US|
#|         India|  IN|
#|United Kingdom|  UK|
#+--------------+----+

dataset_ver2= Dataset.get_by_name(workspace,version="latest")

print (dataset_ver2.to_pandas_dataframe())
#    country        code
#0  United States   US
#1  India           IN
#2  United Kingdom  UK
#3  China           CN

dataset_ver2.to_spark_dataframe().show(20)
#+--------------+----+
#|       country|code|
#+--------------+----+
#| United States|  US|
#|         India|  IN|
#|United Kingdom|  UK|
#|         China|  CN|
#| United States|  US|
#|         India|  IN|
#|United Kingdom|  UK|
#|         China|  CN|
#+--------------+----+

如果查看版本2的Spark Dataframe输出,则每行都会重复。而Pandas数据框看起来像预期的那样。 这是AzureML API中的错误,还是我做错了什么?

请帮助

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。