微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何在Palantir铸造厂中使用transform_df写回数据框?

如何解决如何在Palantir铸造厂中使用transform_df写回数据框?

我创建了一个库来更新输入数据集的列的描述。该函数将三个参数作为输入(input_dataset,output_dataset,配置文件),并最终写回输出数据集的描述。因此,现在我们想跨各种用例导入该库。在编写火花转换的情况下该怎么做,即通过transform_df获取输入,因为在这里我们无法将输出分配给输出变量。在那种情况下,如何调用我的描述库函数?在Palantir铸造厂如何处理这种情况。有什么建议吗?

解决方法

@transform_df装饰器当前不支持此方法;您现在必须使用@transform装饰器。

其背后的原因是认识到需要更广泛地访问元数据API,例如@transform装饰器。因此,@transform_df装饰器本质上是更高的级别,因此将其保留在该模式似乎更符合要求。

您始终可以轻松地从...进行转换。

from transforms.api import transform_df,Input,Output


@transform_df(
  Output("/my/output"),my_input("/my/input"),)
def my_compute_function(my_input):
  df = my_input
  # ... logic ....
  return my_input

...到...

from transforms.api import transform,Output


@transform(
  my_output=Output("/my/output"),my_input=Input("/my/input")
)
def my_compute_function(my_input,my_output):
  df = my_input.dataframe()
  # ... logic ....
  my_output.write_dataframe(df)

...只需更改6行代码。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。