微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何从单词目录创建语料库?

如何解决如何从单词目录创建语料库?

我想对公司名称进行细分。输入不是句子的形式。

这是输入和输出的说明

appleinc -> ["apple","inc"]
googlellc -> ["google","llc"]
slacktechnologiesinc -> ["slack","technologies","inc"]
llcllc -> ["llc","llc"]
incllc -> ["inc","llc"]

我发现 Grant Jenk 的 Word Segment library 适合这项任务。

他发布了关于如何在他的图书馆中使用不同语料库的article。但是,他正在使用电子书来构建语料库。

我研究了现有的语料库教程,但每个教程都使用维基百科或电子书来构建基于句子的语料库。

我有两个目录。一个目录包含全球公司名称,而另一个目录包含公司法定缩写,例如 ("llc","inc")

如何从这两个目录创建 copus 并构建 UNIGRAMS 和 BIGRAMS?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。