微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

python – 我可以使用现有的库或api来分离基于字符的语言中的单词吗?

我正在研究一个小业余爱好Python项目,该项目涉及使用该语言编写的大量文本为各种语言创建字典.对于大多数语言来说,这是相对简单的,因为我可以使用单词之间的空格分隔符将段落标记为字典的单词,但是例如,中文不会在单词之间使用空格字符.如何将一段中文文本标记为单词?

我的搜索发现这是一个有点复杂的问题,所以我想知道是否有现成的解决方案可以通过api或任何其他语言在Python或其他地方解决这个问题.这一定是一个常见问题,因为为亚洲语言制作的任何搜索引擎都需要克服这个问题才能提供相关结果.

我试图使用谷歌搜索,但我甚至不确定这种类型的标记化被调用,所以我的结果没有找到任何东西.也许只是在正确的方向上推动会有所帮助.

解决方法:

语言标记化是自然语言处理(NLP)的一个关键方面.对于大型企业和大学来说,这是一个很大的话题,并且已经成为众多博士论文的主题.

我刚刚为您的问题提交了一个编辑,以添加’nlp’标记.我建议你看一下’nlp’标签的“关于”页面.您将找到指向Natural Language Tool Kit等网站的链接,其中包括基于Python的标记生成器.

您还可以在Google上搜索以下字词:“语言标记化”和NLP.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐