前言
从这一部分开始我们将进入到NLP的具体任务环节,首先我们来讲解下机器翻译任务。
一、 机器翻译简介
1. 任务定义
机器翻译任务旨在将文本从一种源语言 (Source Language) 翻译到另一种目标语言 (Target Language)。
2. 发展历史
机器翻译的发展历史包括以下四个阶段:基于规则的机器翻译 (Rule-Based Machine Translation, RBMT);基于实例的机器翻译 (Example-Based Machine Translation, EBMT);统计机器翻译 (Statistical Machine Translation, SMT);神经机器翻译 (Neural Machine Translation, NMT)。
我们在这里主要简单介绍下前两种,即RBMT和EBMT。SMT和NMT我们将在后续做更详细的介绍。
RBMT:顾名思义,基于规则,那么规则就需要人来手动编写,所以就会存有设计复杂,不全面等一系列不足。
EBMT:主要思想是通过实例类比对于短语片段进行翻译。举例来讲:我们知道“我爱吃苹果”可以翻译为“I like eat apple”,在翻译“我爱吃桃子”的时候可以直接将“apple”替换为“peach”就可以。这样做在一定程度上减少了规则的定义。
二、统计机器翻译
统计机器翻译的核心思路是:从数据中学习一个概率模型。优化目标则是概率最大时候的目标语言。
1. 翻译模型和语言模型
在引出翻译模型和语言模型前,我们先给出概率模型的形式化定义,如下:
然后使用贝叶斯公式将上式展开,得到两个需要分别学习的模型。如下所示,其中
P
(
X
)
P(X)
P(X) 不随
y
y
y改变,故可省略。
在上式中有两个模型(或者可以称之为有两个概率需要被计算),即: P ( x ∣ y ) P(x|y) P(x∣y) 和 P ( y ) P(y) P(y) 。
• P ( x ∣ y ) P(x|y) P(x∣y) 被称作翻译模型,代表的意义是从平行语料中学习单词和短语如何被正确翻译。
• P ( y ) P(y) P(y) 被称作语言模型,代表的意义是从单语语料中学习如何生成流畅的英语。
除此之外,还有$argmax_y$需要被计算。一种计算方案:枚举所有可能的
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。