微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

MultiheadAttention 的可学习参数数量

如何解决MultiheadAttention 的可学习参数数量

在测试时(使用 PyTorch 的 MultiheadAttention),我注意到增加或减少多头注意力的头数不会改变我模型的可学习参数的总数。

这种行为是否正确?如果是这样,为什么?

head 的数量不应该影响模型可以学习的参数数量吗?

解决方法

多头注意力的标准实现将模型的维度除以注意力头的数量。

具有单个注意力头的 d 维度模型会将嵌入投影到 d 维查询、键和值张量的单个三元组(每个投影计算 d2 个参数,不包括偏差,总共 3d2).

具有 k 个注意力头的相同维度模型会将嵌入投射到 kd/k 维查询、键和值张量(每个投影计数 d×d/k=d2/k 参数,不包括偏差,总共 3kd2/k=3d2).


参考文献:

来自原始论文: enter image description here

您引用的 Pytorch 实现: enter image description here

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。