如何解决从 AWS Glue 将 Spark MLlib 模型写入 S3
我的目标是将经过训练的 MLlib 模型从 AWS Glue Studio 作业编写到 S3。在另一份工作中,我想从 S3 中读取持久化模型以执行推理。
我知道 Spark MLlib 模型不能通过使用 Python 进行酸洗来序列化。那是我要调查的第一个领域(请参阅此讨论:Save Apache Spark mllib model in python)。
我也研究过这个方法:model.save([spark_context],[file_path])
。我传入了glueContext 作为第一个参数并提供了一个路径——但是,得到了一个错误TypeError: save() takes 2 positional arguments but 3 were given
。
MLlib 提供了一个 JSON persistence format。但是,我不确定如何访问现有模型的原始 JSON - 我相信这是最有前途的方法。如果我能得到这个 JSON 字符串,那么我就可以使用 boto3 来读写 S3。
总而言之,我有两个可供选择的问题(任何一个的答案就足够了):
- 如何通过 AWS Glue 作业将 MLlib 模型写入 S3 或从 S3 写入 MLlib 模型?
- 如何从现有模型中获取 MLlib JSON 持久性格式?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。