微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

BERT:作为掩码语言模型一部分的输入嵌入的权重

如何解决BERT:作为掩码语言模型一部分的输入嵌入的权重

我查看了 BERT 掩码语言模型的不同实现。 对于预训练,有两个常见版本:

  1. 解码器将简单地获取 [MASK]ed 标记的最终嵌入并将其传递给一个线性层(无需任何修改):
    class LMPrediction(nn.Module):
        def __init__(self,hidden_size,vocab_size):
            super().__init__()
            self.decoder = nn.Linear(hidden_size,vocab_size,bias = False)
            self.bias = nn.Parameter(torch.zeros(vocab_size))
            self.decoder.bias = self.bias
        def forward(self,x):
             return self.decoder(x)
  1. 某些实现会使用输入嵌入的权重作为解码器线性层的权重:
    class LMPrediction(nn.Module):
        def __init__(self,embeddings):
            super().__init__()
            self.decoder = nn.Linear(hidden_size,bias = False)
            self.bias = nn.Parameter(torch.zeros(vocab_size))
            self.decoder.weight = embeddings.weight ## <- THIS LINE
            self.decoder.bias = self.bias
        def forward(self,x):
             return self.decoder(x)

哪个是正确的?大多数情况下,我看到了第一个实现。然而,第二个也有道理——但我找不到任何论文中提到它(我想看看第二个版本是否比第一个更好)

解决方法

对于那些有兴趣的人来说,它被称为权重绑定联合输入输出嵌入。有两篇论文论证了这种方法的好处:

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。