微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何在pytorch中钳制nueron的输出

如何解决如何在pytorch中钳制nueron的输出

我使用简单的 nn 线性模型 (20,64,2) 进行深度强化学习。我使用这个模型通过 PPO 算法来近似策略梯度。因此输出层给出了 2 个值,分别是均值和标准差。这些参数在环境中进一步用于采样更多数据。对于环境,参数值应该在阈值之间。 mean = [max,min]std = [max,min]

在训练时,经过一些迭代后,输出层的参数值突然增加,因此环境无法采样更多数据。环境使用模型的输出,我无法改变环境以使其稳定。因此,是否有任何方法可以限制阈值的参数值或进行钳位。 (损失由环境采样的数据计算,然后反向传播)

您可以在下面找到模型的示例代码

    def forward(self,x):
        # Feed forwards to layers
        x = F.relu(self.linear_0(x))
        x = F.relu(self.linear_1(x))
        return self.linear_2(x)

我尝试了以下结构...

    def forward(self,x):
        # Feed forwards to layers
        x = F.relu(self.linear_0(x))
        x = F.relu(self.linear_1(x))
        x = self.linear_2(x)
        x[0] = torch.clamp(x[0],min=min,max=max)
        x[1] = torch.clamp(x[1],max=max)
        return x

但是它在反向传播时出错:

RuntimeError:梯度计算所需的变量之一有 通过就地操作修改:[torch.DoubleTensor [499,2]], SelectBackward 的输出 0,版本 3;预期版本 2 代替。提示:启用异常检测以查找操作 未能计算其梯度,与 torch.autograd.set_detect_anomaly(真)。

提前致谢!

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。