微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用 NLTK 构建字符级 Ngram 语言模型

如何解决使用 NLTK 构建字符级 Ngram 语言模型

我正在尝试使用 NLTK 的 KneserNeyInterpolated 函数字符 级别上构建语言模型。我拥有的是熊猫数据框中单词的频率列表,唯一的列是它的频率(单词本身就是索引)。我已经根据单词的平均长度确定 9-gram 模型是合适的。

from nltk.lm.models import KneserNeyInterpolated

lm = KneserNeyInterpolated(9)
for i in range(df.shape[0]):
    lm.fit([list(ngrams(df.index[i],n = 9))])

lm.generate(num_words = 9)
# ValueError: Can't choose from empty population

尝试调试:

n = 9 # Order of ngram

train_data,padded_sents = padded_everygram_pipeline(4,'whatisgoingonhere')
model = KneserNeyInterpolated(n) 
model.fit(train_data,padded_sents)

model.generate(num_words = 10)
# ['r','</s>','</s>']

这有效(我猜?),但我似乎无法将功能扩展到连续训练新词到语言模型,而且我仍然无法生成逼真的词。我觉得我在这里缺少一些关于该模块应该如何工作的基本知识。使这有点困难的是,所有教程似乎都基于单词级 ngram。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?