微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

用熵还是困惑训练语言模型?

如何解决用熵还是困惑训练语言模型?

在训练语言模型中,我经常看到困惑被用作评估指标,但是,我感到困惑的是,是否仅将其用于只是确定语言模型的执行情况或是否可以使用它实际训练模型。到目前为止,我一直在使用分类交叉熵,但是哪个是正确的损失函数?并根据使用字级模型还是字符级模型而改变? TensorFlow 2中如何定义困惑度损失?

此外,我看到的困惑定义如下,

def perplexity_loss(y_true,y_pred):
    cross_entropy = keras.losses.SparseCategoricalCrossentropy(y_true,y_pred)
    perplexity = tf.keras.backend.exp(cross_entropy)
    return perplexity

但是,据我所知,困惑是为一个句子而不是整个文本集定义的?我错了吗?您可以如上所示定义它吗?是否需要添加和令牌?

对此表示感谢。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。