如何在pytorch中钳制nueron的输出

如何解决如何在pytorch中钳制nueron的输出

我使用简单的 nn 线性模型 (20,64,2) 进行深度强化学习。我使用这个模型通过 PPO 算法来近似策略梯度。因此输出层给出了 2 个值，分别是均值和标准差。这些参数在环境中进一步用于采样更多数据。对于环境，参数值应该在阈值之间。 mean = [max,min] 和 std = [max,min]。

在训练时，经过一些迭代后，输出层的参数值突然增加，因此环境无法采样更多数据。环境使用模型的输出，我无法改变环境以使其稳定。因此，是否有任何方法可以限制阈值的参数值或进行钳位。（损失由环境采样的数据计算，然后反向传播）

您可以在下面找到模型的示例代码：

    def forward(self,x):
        # Feed forwards to layers
        x = F.relu(self.linear_0(x))
        x = F.relu(self.linear_1(x))
        return self.linear_2(x)

我尝试了以下结构...

    def forward(self,x):
        # Feed forwards to layers
        x = F.relu(self.linear_0(x))
        x = F.relu(self.linear_1(x))
        x = self.linear_2(x)
        x[0] = torch.clamp(x[0],min=min,max=max)
        x[1] = torch.clamp(x[1],max=max)
        return x

但是它在反向传播时出错：

RuntimeError：梯度计算所需的变量之一有通过就地操作修改：[torch.DoubleTensor [499,2]]， SelectBackward 的输出 0，版本 3；预期版本 2 代替。提示：启用异常检测以查找操作未能计算其梯度，与 torch.autograd.set_detect_anomaly（真）。

提前致谢！