技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

使用 NLTK 构建字符级 Ngram 语言模型

时间：2022-12-06分类：编程问答

如何解决使用 NLTK 构建字符级 Ngram 语言模型

我正在尝试使用 NLTK 的 KneserNeyInterpolated 函数在字符级别上构建语言模型。我拥有的是熊猫数据框中单词的频率列表，唯一的列是它的频率（单词本身就是索引）。我已经根据单词的平均长度确定 9-gram 模型是合适的。

from nltk.lm.models import KneserNeyInterpolated

lm = KneserNeyInterpolated(9)
for i in range(df.shape[0]):
    lm.fit([list(ngrams(df.index[i],n = 9))])

lm.generate(num_words = 9)
# ValueError: Can't choose from empty population

尝试调试：

n = 9 # Order of ngram

train_data,padded_sents = padded_everygram_pipeline(4,'whatisgoingonhere')
model = KneserNeyInterpolated(n) 
model.fit(train_data,padded_sents)

model.generate(num_words = 10)
# ['r','</s>','</s>']

这有效（我猜？），但我似乎无法将功能扩展到连续训练新词到语言模型，而且我仍然无法生成逼真的词。我觉得我在这里缺少一些关于该模块应该如何工作的基本知识。使这有点困难的是，所有教程似乎都基于单词级 ngram。

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

相关推荐

Selenium Web驱动程序和Java元素在(x，y)点处不可单击其他元素将获得点击?

Selenium Web驱动程序和Java。元素在(x，y)点处不可单击。其他元素将获得点击?

Python-如何使用点“” 访问字典成员？

Python-如何使用点“。” 访问字典成员？

Java 字符串是不可变的到底是什么意思？

Java 字符串是不可变的。到底是什么意思？

Java中的“ final”关键字如何工作？我仍然可以修改对象

Java中的“ final”关键字如何工作？（我仍然可以修改对象。）

“loop:”在Java代码中这是什么，为什么要编译？

“loop:”在Java代码中。这是什么，为什么要编译？

java.lang.ClassNotFoundException：sun.jdbc.odbc.JdbcOdbcDriver发生异常为什么？

java.lang.ClassNotFoundException：sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么？

这是用Java进行XML解析的最佳库

这是用Java进行XML解析的最佳库。

Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构为什么？

Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么？

如何在Java中聆听按键时移动图像

如何在Java中聆听按键时移动图像。

Java“Program to an interface”这是什么意思？

Java“Program to an interface”。这是什么意思？

小编推荐

苹果市值2025年有望达4万亿美元

最新文章