如何在Palantir铸造厂中使用transform_df写回数据框？

如何解决如何在Palantir铸造厂中使用transform_df写回数据框？

我创建了一个库来更新输入数据集的列的描述。该函数将三个参数作为输入（input_dataset，output_dataset，配置文件），并最终写回输出数据集的描述。因此，现在我们想跨各种用例导入该库。在编写火花转换的情况下该怎么做，即通过transform_df获取输入，因为在这里我们无法将输出分配给输出变量。在那种情况下，如何调用我的描述库函数？在Palantir铸造厂如何处理这种情况。有什么建议吗？

解决方法

@transform_df装饰器当前不支持此方法；您现在必须使用@transform装饰器。

其背后的原因是认识到需要更广泛地访问元数据API，例如@transform装饰器。因此，@transform_df装饰器本质上是更高的级别，因此将其保留在该模式似乎更符合要求。

您始终可以轻松地从...进行转换。

from transforms.api import transform_df,Input,Output


@transform_df(
  Output("/my/output"),my_input("/my/input"),)
def my_compute_function(my_input):
  df = my_input
  # ... logic ....
  return my_input

...到...

from transforms.api import transform,Output


@transform(
  my_output=Output("/my/output"),my_input=Input("/my/input")
)
def my_compute_function(my_input,my_output):
  df = my_input.dataframe()
  # ... logic ....
  my_output.write_dataframe(df)

...只需更改6行代码。