如何解决PGPy 不会继续使用 GCP Dataflow 管道
我正在尝试在使用 Apache Beam 实现的自定义 GCP 数据流管道中使用 PGPy 库。 我得到的是 DirectRunner 一切正常,但是当我部署作业并在 DataflowRunner 上执行它时,我收到有关 PGPy 使用的错误:
ModuleNotFoundError: 没有名为“pgpy”的模块
我想我在 DataflowRunner 中遗漏了一些东西。
谢谢
解决方法
为了管理管道依赖,请参考:
https://beam.apache.org/documentation/sdks/python-pipeline-dependencies/
我个人的偏好是直接使用 setup.py,因为它可以让您处理多个文件依赖项,一旦管道变得更复杂,它往往会被使用。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。