如何解决在 Opennlp 中使用非常大接近 2GB的数据集进行训练?
我想使用 Opennlp 为大量关键字(约 10 亿 Kws)训练语言检测模型。语料库由 5 种主要语言组成。
对于训练数据集,我有多个包含每种语言样本的文件,训练数据集总共包含 1.9GB 的数据。
我使用 Opennlps LanguageDetectorTrainer 创建了一个训练集,每种语言花费了大约 600 万千瓦,并使用 Java 上的样本创建了一个模型:
// loading the training data to LanguageDetectorSampleStream
LanguageDetectorSampleStream sampleStream = null;
try {
InputStreamFactory dataIn = new MarkableFileInputStreamFactory(new File("training_file.txt"));
ObjectStream linestream = new PlainTextByLinestream(dataIn,"UTF-8");
sampleStream = new LanguageDetectorSampleStream(linestream);
} catch (FileNotFoundException e){
e.printstacktrace();
} catch (IOException e) {
e.printstacktrace();
}
System.out.println("Training the model.....");
// training parameters
TrainingParameters params = new TrainingParameters();
params.put(TrainingParameters.IteraTIONS_ParaM,100);
params.put(TrainingParameters.CUTOFF_ParaM,2);
params.put("DataIndexer","TwoPass");
params.put(TrainingParameters.ALGORITHM_ParaM,NaiveBayesTrainer.NAIVE_BAYES_VALUE);
// train the model
try {
model = LanguageDetectorME.train(sampleStream,params,new LanguageDetectorFactory());
} catch (IOException e) {
e.printstacktrace();
}
然而,这种方法似乎效果不佳,在我运行模型的语料库样本中,大量应该是英语的关键字被错误地识别为西班牙语。
我认为我可以使用整个 1.9GB 进行训练,而不是使用来自每种语言的相同大小的样本。英文文件占集合的更大部分,也许可以更好地防止误报。然而,在实践中,上面的脚本似乎内存不足并在训练模型时自行终止。我的问题是,有没有办法通过以某种块处理 1.9GB 集来让模型自行训练?如果没有,有没有其他方法可以尝试在英文关键字上增加“权重”?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。