微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

映射和过滤RDD时如何传递多个参数?

如何解决映射和过滤RDD时如何传递多个参数?

我目前有这一行来过滤并将函数应用于 RDD。

data_to_update.rdd.map(find_differences).filter(lambda row: bool(row))

我想修改 find_differences 函数以在 unique_id 之外还采用另一个参数 row。我不确定如何修改这一行来做到这一点,或者是否有更好的方法来编写它。

解决方法

假设您的当前函数如下所示:

def find_differences(row):
    # do something
    return result

您可以创建一个新函数和一个与原始函数匹配的偏函数:

from functools import partial 

def find_differences_id(unique_id,row):
    # do something else
    return another_result

find_differences = partial(find_differences_id,unique_id)

并像以前一样映射 RDD。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。