微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

计算具有相同词根的单词

如何解决计算具有相同词根的单词

假设我有一个包含特定语言单词的 WorkBank 数据库。例如,俄语。俄语单词因数量和格而有不同的词尾(主格、宾格等)

因此,学生可能是:

студент студента

还有什么...

还有其他语言,例如英语,其中动词可以根据其时态(说、说、说等)有不同的形式。 此外,其他语言,如意大利语和法语,其中的单词可能会与另一个单词连接:

酒店 = 酒店 l'hôtel = 酒店

anatra = 鸭子 l'anatra = 鸭子

我想将所有单词存储在 WorkBank 中,但是,我想将它们链接到它们的父单词并区分唯一单词与派生单词,因此所有形式的 студент 和所有形式的“speak”都只计算一个.

我知道这是一个非常广泛的主题,我不是在寻求解决方案。如果有人能给我指出正确的方向或任何我可以阅读的文档来开始实施,我将不胜感激。

解决方法

您需要执行一些步骤:

  1. 为每个单词找到一个引理(为此,您可以查看 nltk 库文档,其中包含示例)。
  2. 将这些词条翻译成一种语言(例如英语),然后通过这种翻译将单词分组。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。