在 OpenAI Gym 中定义 MDP 的最简单方法？

如何解决在 OpenAI Gym 中定义 MDP 的最简单方法？

我正在寻找基于示例的答案，无论是答案中直接的代码还是教程的链接，但不只是纯文本答案。

我很好奇——如何在 OpenAI Gym 中定义任意马尔可夫决策过程以实现强化学习解决方案？我在我的角色中经常遇到的问题是旅行推销员、车辆路线安排和库存优化。通常，我使用遗传算法和贝叶斯优化等优化技术来寻找接近最优的解决方案。但是，在这个问题中，我希望看到一种实用/可行的 RL 方法来解决此类问题。我的理解是 OpenAI Gym 是为 RL 定义代理/环境的最简单工具。（如果这不是真的，请使用您首选的替代方案以相同的详细程度回答这个问题。）