Microsoft Custom Translator的培训数据中存在冲突

如何解决Microsoft Custom Translator的培训数据中存在冲突

我正在使用Microsoft Custom Translator,并以tmx格式提供培训数据。我的训练数据有一些冲突。例如,我有英语到德语的训练数据,其中有重复的英语字符串,但是这些重复的英语字符串的德语翻译是不同的。在这种情况下,它将如何影响模型?

解决方法

只要一侧是不同的,它们仅仅是替代的翻译,并且始终存在。替代方案将保留,并影响结果模型中的概率。

,

我将详细介绍我们尊敬的Microsoft Translator同事的官方认可答案。

是的,它经常发生,是的,它将影响结果模型中的概率。

那好吗? 要视情况而定。

是的,由于不同的上下文(尤其是在短字符串上)会导致目标端冲突,但也经常有其他原因,并且存在不合理的不一致之处。

最好实际查看目标端的冲突,并根据冲突的类型和场景(整体数据集,期望的行为和通用行为)做出执行决策系统。

在某些情况下,训练数据中的目标方冲突是可取的或无害的,但至少在某些情况下,这是有害的或权衡取舍。

例如,缺少重音符号,错误的编码,讨厌的隐藏字符或其他非人类可读的差异,例如双角括号,冲突的语言环境,未翻译的句段,更新样式准则等,大多数都是有害的冲突。一种变体可能是本地化单元,而另一种则没有。而且,经常有一种变体就是不好的翻译。

通常,这些直接冲突(即具有相同确切来源的句段之间的冲突,可以通过简单的脚本找到)是关于更广泛的数据集中冲突的线索-除非您知道什么,否则很难找到您正在寻找。

在更多的1:1翻译和翻译之间,在准确性和流利度之间存在折衷。前者的名字不好,但风险较小且更可靠。

决策可能是删除,解析或规范化,或者是调试数据集和数据管道。

只需将所有内容扔进黑匣子,并在Manning和Schütze1999的《我们信任的深度学习》中抱怨三遍,那么只有在规模(训练定制模型的频率而不是数量)上才有意义培训数据的数量如此之高,以至于无法进行基本的尽职调查。

要真正知道,您可能需要训练有无冲突的系统,并进行评估和比较。

另一方面,源侧的噪声和冲突甚至不是真正的冲突,通常是安全的,甚至可以包括在内。他们仍然值得一看。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?