了解 TVLQR 的最终增益矩阵

如何解决了解 TVLQR 的最终增益矩阵

我最近开始使用 TVLQR 实现来跟踪简单钟摆实验装置的向上摆动轨迹。我注意到轨迹被非常稳健地跟踪（对小扰动稳健），但钟摆最终不会保持在直立位置。

我假设 FiniteHorizonLinearQuadraticRegulatorOptions 中的 Qf 矩阵是最终状态的状态成本矩阵，即等效于无限水平 LQR 公式中的 Q 矩阵。如果是这样，增益矩阵 K 在最终位置也应该相同。然而，轨迹末端的 TVLQR/FiniteHorizonLinearQuadraticRegulator 增益矩阵 K 远小于我从钟摆顶部位置的无限水平公式中得到的增益矩阵 K。

我不确定我是否正确理解了有限地平线公式，因为最终增益矩阵与我预期的不同。查看textbook chapter中的推导，无限范围的cost-to-go是通过求解代数riccati方程（包含Q成本矩阵）得到的，有限范围公式使用Qf作为最终成本Sf 对微分 Riccati 方程进行时间向后积分。这是增益矩阵差异的原因吗？

这是否也意味着我必须在轨迹末端切换到无限水平 LQR，因为有限水平公式不会切换到具有 Qf=Q 成本矩阵的相同无限水平版本？