微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

在Foundry代码存储库中,如何遍历目录中的所有数据集?

如何解决在Foundry代码存储库中,如何遍历目录中的所有数据集?

我正在尝试在单个Pyspark转换中从单个目录读取(全部或多个)数据集。是否可以遍历路径中的所有数据集,而无需将各个数据集硬编码为输入?

我想从多个数据集中动态获取不同的列,而不必对各个输入数据集进行硬编码。

解决方法

所以这不起作用,因为每次运行CI时结果都会不一致。这将破坏TLLV(转换级逻辑版本控制),因为它无法分辨逻辑何时真正更改,从而将数据集标记为过时。

您将必须写出要转换的每个数据集的逻辑路径,即使这意味着它们已传递到生成的转换中。至少需要有一些一致的记录来记录哪些数据集被哪个提交作为目标。

实现您正在寻找的另一种策略是制作一个长数据集,该数据集是数据集的原始版本。这样,您可以将APPEND个新的行/文件简化为该数据集,这将允许您接受任意输入,前提是您的转换是以这种方式构造的。 我的经验法则是:如果您需要动态模式或数据集的动态计数,那么最好在单个数据集中使用动态文件/行数。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。