微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

关于 Pytorch seq2seq 教程中注意力计算的问题:discrepancy with original Badahnau or Luong paper

如何解决关于 Pytorch seq2seq 教程中注意力计算的问题:discrepancy with original Badahnau or Luong paper

我最近在研究注意力。我有点怀疑他们计算的注意力是 Pytorch NLP 注意力教程:https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html

在教程中,他们使用解码器的输入和解码器的隐藏状态计算得分或权重。但是我发现 Luong 和 Badahnau 都没有这样做的原因。相反,两者都使用解码器隐藏状态和编码器输出计算权重。 为什么 Pytorch 教程会这样做?

解决方法

pytorch 教程对 Luong 和 Bahdanau 的关注似乎不同。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。