如何解决使用 NLTK 构建字符级 Ngram 语言模型
我正在尝试使用 NLTK 的 KneserNeyInterpolated 函数在 字符 级别上构建语言模型。我拥有的是熊猫数据框中单词的频率列表,唯一的列是它的频率(单词本身就是索引)。我已经根据单词的平均长度确定 9-gram 模型是合适的。
from nltk.lm.models import KneserNeyInterpolated
lm = KneserNeyInterpolated(9)
for i in range(df.shape[0]):
lm.fit([list(ngrams(df.index[i],n = 9))])
lm.generate(num_words = 9)
# ValueError: Can't choose from empty population
尝试调试:
n = 9 # Order of ngram
train_data,padded_sents = padded_everygram_pipeline(4,'whatisgoingonhere')
model = KneserNeyInterpolated(n)
model.fit(train_data,padded_sents)
model.generate(num_words = 10)
# ['r','</s>','</s>']
这有效(我猜?),但我似乎无法将功能扩展到连续训练新词到语言模型,而且我仍然无法生成逼真的词。我觉得我在这里缺少一些关于该模块应该如何工作的基本知识。使这有点困难的是,所有教程似乎都基于单词级 ngram。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。