如何在没有 Gym 的情况下创建强化学习代理？

我想创建一个 RL 代理，它可以找到您可以对图像进行的最佳转换并应用它。我正在经历 Image Augmentation Is All You Need: Regularizing Deep Reinforcement Learning from Pixels，但我很难理解 code。

所以我的想法是我可以完全删除健身房，因为我的问题不需要我的环境具有持续状态。我只会在我的模型上一次输入一张图像。但是我无法理解如何提供所需的大量信息，例如如何定义动作空间或如何给予奖励。

示例：他们使用这一行来定义直接从环境中获取信息的 action_space。我不知道这个变量中的数据是什么类型或形状。

cfg.agent.params.action_shape = self.env.action_space.shape

在网上搜索示例几乎每个人似乎都使用健身房，无论是作为定制环境还是预制环境？因此，我的问题是否可以在不使用健身房的情况下创建 RL 代理？如果是我该怎么做？任何有关如何操作的示例代码？

另外，也许问题是我缺乏知识或我错误地处理了这个问题，因此我们将不胜感激任何建议或材料。

TLDR：我的项目卡住了，我请求一些帮助，如果这不是问的地方，我很抱歉。