如何解决Solr:CJK Tokenizer for Chinese Language 的实现示例
我们有一个中文网站,使用 solr 进行搜索并寻找最好的中文分词器。 CJKTokenizer 理论上看起来最好,但我无法在任何地方找到实际的实现。我到处都可以看到 CJKFilters(而不是 Tokenizer)正在与其他一些标记器一起实现。
我可以直接使用类似的东西:
<fieldType name="text_general" class="solr.TextField">
<analyzer>
<tokenizer class="org.apache.solr.analysis.CJKTokenizerFactory"/>
</analyzer>
</fieldType>
是否有任何 CJKTokenizer 实现代码我可以参考 CJKTokenizer 已弃用,这些是唯一的选择?(就像这个页面说 https://lucene.apache.org/core/4_3_0/analyzers-common/org/apache/lucene/analysis/cjk/CJKTokenizer.html)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。