Lucene - 基于前一个词的索引词

我正在尽最大努力使用 Lucene 有效地索引字符串中相互连接的双字符标记（两个单词）。我的目标是计算给定前一个词的词的概率（基于一些语料库）。

公式为：

{occurences of term x followed by term y}/{occurences of term x followed by another term}

我想过在 Lucene 中利用 NGramTokenizer，但似乎无法磨练两个完整的词（更不用说按顺序排列的词对了）。

谁能指导我使用符合此条件的自定义分析器？

如果我能够检索二元组的词频和文档频率，那么我就可以轻松计算公式。