微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

NLP论文阅读(通过义元信息增强的Transformer)

论文

                Enhancing Transformer with Sememe KNowledge

 摘要

向Transformer模型中引进了义元知识,并提出三种基于义元信息增强的Transformer模型,根据语言定义,义位是语言的最小语义单位,可以很好地表示单词背后的隐含语义

 在Transformer中引入义元知识可以持续改善语言模型和下游任务,对抗测试显示义元信息可以提高模型健壮性

引言

自我监督的预训练显着提高了Transformer(V aswani等人,2017)在各种NLP任务上的性能(Radford等人,2018; Devlin等人,2019; Yang等人,2019)。尽管没有引入明确的语言规则和概念,但是通过大规模数据提供的大量训练信号,模型可以实现出色的性能。尽管如此,最近的工作仍然表明,外部句法信息可以改善各种NLP任务,包括机器翻译(Sennrich和Haddow,2016年; Aharoni和Goldberg,2017年; Bastings等人,2017年)和语义角色标记marcheggiani和Titov,2017年; Strubell等人,2018)。我们探索将义元知识整合到Transformer中(V aswani等人,2017)。义元是自然语言中语义的最小语义单位,因为一些语言学家认为,可以组成一组有限的封闭的义元来表示每个单词的语义(Bloomfield,1926)。在这项工作中,我们采用了高质量的基于义元的词法知识库HowNet(Dong and Dong,2006; Qi et al。,2019),该模型可以为理解汉语单词语义的模型提供强大的支持(Gu et al。,2018)。 ; Niu等人,2017)。图1中显示了sememe注释的一些示例。两种简单的方法将义元知识纳入我们的框架。

  1. 在语言假设的基础上,我们在每个词嵌入中添加聚合的义元嵌入,以增强其语义表示。
  2. 将义元预测作为辅助任务,来帮助模型更深入地理解单词语义

我们验证了我们的方法在几个与单词级和句子级语义密切相关的中文NLP任务上的有效性。按照预训练和微调的常规设置,我们的实验表明,使用sememe增强型Transformer可以在所有任务上实现一致的改进。我们还发现,sememe增强模型可以用较少的微调数据来达到相同的性能,这是理想的,因为数据注释过程始终是耗时且昂贵的。

方法

义元聚集嵌入以及义元预测辅助任务

对于每个单词w,Transformer-SE都会考虑其所有义元,并通过在单词嵌入中添加其平均义元嵌入来增强单词表示。

 

 义元预测辅助任务

除了Transformer-SP的语言建模任务之外,我们还添加了sememe预测任务。这项任务挑战了模型整合义元知识的能力,并且可以看作是义元建模的补充任务,因为预测下一个单词的义元与理解语义密切相关,并且比直接建模义元的概率通常更容易学习

实验

 我们使用6层8头变压器,其隐藏大小为768,前馈大小为2048。我们将字嵌入和sememe嵌入大小都设置为768。我们将批处理大小设置为32,将辍学率设置为0.2,以缓解过度拟合的情况。词汇量为39,770,总义元为2,100。我们将序列长度截断为128,以进行预训练和监督学习。进行监督训练时,我们将系数ρ设置为0.5。嵌入被绑定到输入层和输出层,以加快收敛速度​​。我们裁剪小于2的梯度,并使用具有0.001学习速率和8000个预热步骤的Adam优化器(Kingma和Ba,2014)。对于下游任务,我们使用语言建模中最好的预训练模型进行初始化。我们使用困惑(PPL)来衡量语言模型的性能。 PPL越低表示性能越好。

As characters provide strong semantics for Chinese (Chen et al., 2015), we also compare sememe decomposition with character decomposition (Sememe2Char) for our best model (i.e., with aggre-gated character embedding and character predictionauxiliary task). From Table 1, we observe clear performance drops over all tasks, which demonstrates that decomposing word into sememes are much more effective.由于字符为中文提供了强大的语义(Chen et al。,2015),因此我们还比较了sememe分解与字符分解(Sememe2Char)来获得最佳模型(即具有聚集的字符嵌入和字符预测辅助任务)。从表1中,我们观察到所有任务的性能明显下降,这表明将单词分解为义元要有效得多。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐