微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Lucene - 基于前一个词的索引词

如何解决Lucene - 基于前一个词的索引词

我正在尽最大努力使用 Lucene 有效地索引字符串中相互连接的双字符标记(两个单词)。我的目标是计算给定前一个词的词的概率(基于一些语料库)。

公式为:

{occurences of term x followed by term y}/{occurences of term x followed by another term}

我想过在 Lucene 中利用 NGramTokenizer,但似乎无法磨练两个完整的词(更不用说按顺序排列的词对了)。

谁能指导我使用符合此条件的自定义分析器?

如果我能够检索二元组的词频和文档频率,那么我就可以轻松计算公式。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。