微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

当联接列名称相同时,Spark联接在Spark> 2.4中不起作用

如何解决当联接列名称相同时,Spark联接在Spark> 2.4中不起作用

我们最近将Spark从 v.2.1 升级 v.2.4

以前运行的代码如下:

final_df = spark.sql("select a.*,b.* from df_1 a join df_2 b on a.cust_id = b.cust_id")

升级后,同一查询输出具有0条记录。我尝试了很多调试,但是不明白为什么以前这样的简单连接失败了。

最后,当我更改其中一个表的cust_id列的别名时,它起作用了( df_2的cust_id-> cust_id_2 ):

final_df = spark.sql("select a.*,b.* from df_1 a join df_2 b on a.cust_id = b.cust_id_2")

我觉得这是非常奇怪的行为,在升级开源项目时,应始终检查向后兼容性。

需要有关此主题评论/建议。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。