微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

注意 NLP 变换器网络中的“能力”

如何解决注意 NLP 变换器网络中的“能力”

我目前正在撰写关于 NLP 转换器的硕士论文。我读了很多书,有一段时间一直想知道一个事实。在变形金刚中,我们有自注意力和注意力头。假设我有 512 维和 8 个 head 的词嵌入,那么每个 head 都会处理每个输入词的 64 维来计算 self-attention。

这是教科书上的一张图片,可以说明我的意思:

enter image description here

这是我现在的问题。我们可以说每个注意力头都有一种“能力”来理解单词的部分含义吗?假设一个词嵌入的前 64 个维度总是处理词的情感;那么第一个头会是情绪头吗?这对网络中的可解释性和学习意味着什么?

这是我在这里的第一个问题;我希望表达得足够清楚。

感谢您的回答!

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。