如何解决如何使用 Pyhton 规范化印地语文本?
我使用 WER,字错误率作为指标。
reference (ground truth) - वह शादीशुदा नहीं है
hypothesis(model output) - वह शादी शुदा नहीं है
我需要某种方法来规范参考和假设句子,以便 WER 更有意义。上面的例子实际上应该得到 WER = 0,但由于 शादी शुदा 之间的空间,WER 变成 2/4=0.5
我找不到任何方法来处理印地语文本。
有人可以帮我解决这个问题吗?谢谢
解决方法
我在 Google 上搜索了“使用 Python 对印地语文本进行规范化处理”,我得到了一个 NLP 库,为印地语文本开发了 bt iitB。您可以查看以下链接:
https://www.cse.iitb.ac.in/~anoopk/pages/softwares.html
https://github.com/anoopkunchukuttan/indic_nlp_library
也许它会帮助你。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。