一份文件中的联动短语频率

如何解决一份文件中的联动短语频率

我正在尝试查找文本中短语的出现频率。但是，如果在一个文档中有多个短语，Whoosh仍将整个文档视为命中，而不是短语短语。示例：

self.analyzer = StandardAnalyzer(expression=r'([.,!?;:]+|\w+((\-|\'|\.)?\w+)*)',minsize=1,stoplist=[])
self.schema = Schema(tag=STORED,content=TEXT(analyzer=self.analyzer))
self.index = create_in("index",self.schema)
self.parser = QueryParser('content',self.index.schema)
writer = self.index.writer()
writer.add_document(tag=u"tag1",content=u"One two Search Phrase three four Search Phrase")
writer.add_document(tag=u"tag2",content=u"Foo bar Search Phrase foo bar")
writer.commit()
self.searcher = self.index.searcher()

query = self.parser.parse('"Search Phrase"') #The Phrase we need to find
results = self.searcher.search(query,limit=None)

# Here we will achieve only 2 hits because every document contains the search phrase,but how Could we achieve 3 hits?
res_count = len(results)

对于术语，我们有频率计数：

# Number of times content:wobble appears in all documents
freq = searcher.frequency("content","wobble")

# Number of documents containing content:wobble
docfreq = searcher.doc_frequency("content","wobble")

但是上面的代码不适用于短语。短语有相似之处吗？我想念什么吗？我没有在文档中找到任何有用的信息。非常感谢您的帮助！