bleu、ROUGE评价指标
bleu,Rouge一般在翻译里用
bleu
bltk工具箱中就有bleu的评估指标实现
bleu通过比较预测语句和参考语句里的n-gram(从1-gram到4-gram)的重合程度。显然,重合程度越高,译文的质量就高。1-gram主要是用于比较单个单词的准确率,而2~4-gram则用于衡量句子的流畅性。
这个评价指标,关心的是预测语句的准确率,而没有考虑到预测语句的缺失率。
即计算的时候,用预测语句的n-gram个数做分母
分子是相同gram的个数
ROUGE
rouge就只计算了预测语句的召回率。
在实际的神经网络机器翻译出的语句通常是比较流畅的,但有时会瞎翻译,
即计算的时候,用参考译文的n-gram个数做分母。
分子是相同gram的个数
参考:
https://blog.csdn.net/qq_25222361/article/details/78694617
https://www.zhihu.com/question/304798594/answer/567383628
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。