微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何用上下文对句子中的所有单词进行分类?

如何解决如何用上下文对句子中的所有单词进行分类?

我有公司名称(俄文)。名称可以包含缩写、大写字母的单词、小写字母的单词和混合单词。该模型根据以下原则进行训练:在输入处,名称以大写形式给出,在输出处 - 以“正确”版本给出。例如:

ОТДЕЛЕНИЕ СТД РФ (ВТО) - СТД РЕСПУБЛИКИ АДЫГЕЯ -> Отделение СТД РФ (ВТО) - СТД Республики Адыгея

ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "СИГМА" -> Общество с ограниченной ответственностью "СИГМА"

"ЭЛЕКТРОПРОФСОЮЗ" РБ ОО - "ВЭП" -> "Электропрофсоюз" РБ ОО - "ВЭП" 

然后我必须预测我不知道答案的句子。

我尝试使用注意力和双向 GRU 制作基于字符的 seq2seq 模型,但是使用我尝试的所有超参数,它似乎欠拟合。它可以很好地生成短语的开头,但最后却崩溃了。

现在我想我需要使用单词标记。但是我不知道有没有方法可以从上下文中的单个文本中对单词进行分类

我想标记一个句子,并为每个单词分配一个属性,它是什么:大写、小写或首字母大写。另外,我需要用混合词做一些事情,比如“МосГосПаравоз”(或者像“McDonald's”,它不仅以大写字母开头,而且还包含在里面。

也许您需要一种完全不同的方法。我很乐意接受您的帮助

UPD.英文例句:

"SIGMA" LIMITED LIABILITY COMPANY -> "SIGMA" Limited liability company
"SIGMA" LLT -> "SIGMA" LLT
PJSC "GAZPROM"-> PJSC "Gazprom"
STATE BUDGETARY EDUCATIONAL INSTITUTION OF THE CITY OF MOSCOW "LYCEUM NO. 1568" -> State budgetary Educational institution of the city of Moscow "Lyceum No. 1568"

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。