微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

python-检测外来词

我正在编写一个脚本来检测语言A中来自语言B的单词.这两种语言非常相似,并且可能具有相同单词的实例.

如果您对到目前为止的内容感兴趣,可以在这里找到代码:
https://github.com/arashsa/language-detection.git

我将在这里解释我的方法:
我用语言B创建了一个双元组列表,使用语言A创建了一个双元组列表(语言B中的小语料库,语言A中的大语料库).然后,我删除所有常见的二元组.然后,我浏览了语言A中的文本,并使用双字母组检测了语言A中的文本并将它们存储在文件中.但是,此方法找到了两种语言都通用的许多单词,并且还发现了奇怪的二元组,例如彼此相邻的两个国家的名称以及其他异常情况.

你们有没有建议,阅读材料以及我可能会使用的NLP方法?

解决方法:

如果您的方法返回的是两种语言中存在的单词,而您只想返回一种语言中存在的单词,则可能要创建一个语言A的一克列表和语言B的一克列表,然后删除在两个词.然后,如果您愿意,可以进行二元分析.

也就是说,Python中有一些不错的工具可用于语言识别.我发现lang-id是最好的之一.它经过针对90多种语言的语言分类器进行了预培训,并且如果您愿意,可以很容易地针对其他语言进行培训.这是docs.也有guess-language,但根据我的估计,效果不佳.根据外语的本地化程度,您可以尝试以适当的粒度对文本进行分块,然后通过(例如)langid的分类器运行这些分块.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐