微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

「自然语言处理(NLP)」--- 文本匹配模型研究【阿里团队】

来源:AINLPer微信公众号
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-24

引言

    两篇文章与大家分享,第一篇作者对通用文本匹配模型进行探索,研究了构建一个快速优良的文本匹配模型所需条件,在此条件下,其模型性能与最先进的模型相当,且参数少速度快(6倍);第二篇主要研究了集成语言输入特征对神经网络模型产生的影响,并且发现输入特性对性能的影响比我们研究的任何体系结构参数都要大。

##First Blood
TILE: Simple and Effective Text Matching with Richer Alignment Features.
Contributor : 南京大学&&阿里AI团队
Paper: https://www.aclweb.org/anthology/P19-1465
Code: https://github.com/hitvoice/RE2

文章摘要

    文中提出了一种快速、强悍神经网络方法来用于通用文本的匹配。我们研究了构建一个快速性能良好的文本匹配模型的足够条件,并建议保持三个用于序列间对齐的关键特性:原始点对齐特性、先前对齐特性和上下文特性,同时简化所有剩余组件。我们在自然语言推理、意图识别和答案选择等任务中,对4个研究良好的基准数据集进行了实验。我们的模型性能与最先进的模型相当,并且使用的参数更少,除此之外,在推理速度方面与类似模型的相比,至少要快6倍。

本文模型算法RE2

    下图给出了总体架构的说明,两个文本序列在预测层前对称处理,除预测层中参数外的所有参数在两个序列之间共享。

    其中,对齐融合层的输入分为三个部分:原始点态特征(嵌入向量,用空白矩形表示)、先前对齐特征(剩余向量,用对角线矩形表示)和上下文特征(编码向量,用实矩形表示)。右边的架构与左边的架构相同,所以为了简洁起见省略了它。

Augmented Residual Connections(增强剩余链接

    为了给对齐过程提供更丰富的特性,RE2采用了增强版的剩余连接来连接连续块。在增强剩余连接的情况下,对齐和融合层的输入分为三个部分,即原始的点方向特征(嵌入向量)、先前对齐特征(残差向量)和后编码层上下文特征(编码向量)。这三个部分在文本匹配过程中都起到了互补的作用。

AlignmentLayer(对齐层)

    对齐层(如上面架构图所示)将来自两个序列的特性作为输入,并计算对齐后的表示形式作为输出

Fusion Layer(融合层)

    融合层比较三个透视图中的局部表示和对齐表示,然后将它们融合在一起。

Prediction Layer(预测层)

    预测层以池层中v1和v2两个序列的向量表示作为输入,预测最终目标。

实验结果

主要用到的测试集

    SNLI一个用于自然语言推理的基准数据集。
    Scietail一个由科学问答构成的分类数据集。
    Quora Question Pairs2一个用于意图识别的数据集,有两个类指示一个问题是否是另一个问题的意图。
    WikiQA是基于维基百科的基于检索的问答数据集。

自然语言推理上结果

意图识别结果

答案选择结果

Double Kill

TILE: Extending Neural Question Answering with Linguistic Input Features
Contributor : 比勒费尔德大学(德国)
Paper: https://www.aclweb.org/anthology/W19-5806
Code: None

文章摘要

    在一般领域数据集中,基于神经网络的问答已经取得了相当大的进展。为了探索有助于问答模型推广潜力的方法,我们重新实现了最先进的体系结构,在开放域数据集上执行参数搜索,并评估了集成语言输入特征(如部分语音标记、句法依赖关系和语义角色)的第一种方法。 实验结果表明,添加这些输入特性对性能的影响比我们研究的任何体系结构参数都要大。这些语言知识层有可能显著提高神经网络QA模型的泛化能力,从而促进跨域模型转移和领域无关的QA模型的开发。

利用语言输入特性扩展QANet

    为了评估神经网络QA模型中语言输入特性对齐产生的影响,我们利用QANet(作者重新实现)作为测试平台。当尝试将模型调整到其他领域时,这可能会发生意想不到的结果:虽然获取额外的训练数据代价比较大,但是这些语言输入特性可以通过提供尺度变换、领域无关的信息源来提高性能。我们使用三种不同的语言特性来扩展每个单词的输入:词性标注、依赖关系标记和语义角色。
    PoSTags(词性标注),我们假设输入标记的语音部分信息将有助于神经网络通过减少特定问题的答案候选数量,为了提取所有上下文与问题的PoStag,我们使用spaCy library数据集中的粗略PoStag。
    Dependency Relation Labels(依赖关系),我们使用spaCy提取问题和上下文的依赖信息。
    Semantic Roles(语义角色),语义角色标记(SRL)通过识别事件(谓词)及其参与者(语义角色)来发现句子中浅层的语义结构。
我们对Bert模型做了进一步的修改,其中主要修改的如下:
    QANet语言特征的整合,在标准的QANet体系结构中,单词和对应的字符被单独嵌入,然后连接起来,以获得每个输入单词的一个表示向量。在Sennrich和Haddow(2016)之后,我们通过将上面描述的每个语言输入特征映射到它自己的嵌入空间,然后将它们包含到连接中,从而丰富了这个过程。下图显示了QANet的输入嵌入层的更新版本,其中包括语言输入特性。

实验结果

    训练参数对实验结果的影响

    改变每种类型的输入特征及其组合的嵌入维数的结果

     三种语言输入特征相结合的结果

ACED

Attention

更多自然语言处理相关知识,还请关注AINLPer公众号,极品干货即刻送达。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐