在 Opennlp 中使用非常大接近 2GB的数据集进行训练？

如何解决在 Opennlp 中使用非常大接近 2GB的数据集进行训练？

我想使用 Opennlp 为大量关键字（约 10 亿 Kws）训练语言检测模型。语料库由 5 种主要语言组成。

对于训练数据集，我有多个包含每种语言样本的文件，训练数据集总共包含 1.9GB 的数据。

我使用 Opennlps LanguageDetectorTrainer 创建了一个训练集，每种语言花费了大约 600 万千瓦，并使用 Java 上的样本创建了一个模型：

// loading the training data to LanguageDetectorSampleStream
        LanguageDetectorSampleStream sampleStream = null;
        try {
            InputStreamFactory dataIn = new MarkableFileInputStreamFactory(new File("training_file.txt"));
            ObjectStream linestream = new PlainTextByLinestream(dataIn,"UTF-8");
            sampleStream = new LanguageDetectorSampleStream(linestream);
        } catch (FileNotFoundException e){
            e.printstacktrace();
        } catch (IOException e) {
            e.printstacktrace();
        }
  
        System.out.println("Training the model.....");
        // training parameters
        TrainingParameters params = new TrainingParameters();
        params.put(TrainingParameters.IteraTIONS_ParaM,100);
        params.put(TrainingParameters.CUTOFF_ParaM,2);
        params.put("DataIndexer","TwoPass");
        params.put(TrainingParameters.ALGORITHM_ParaM,NaiveBayesTrainer.NAIVE_BAYES_VALUE);
  
        // train the model
        try {
            model = LanguageDetectorME.train(sampleStream,params,new LanguageDetectorFactory());
        } catch (IOException e) {
            e.printstacktrace();
        }

然而，这种方法似乎效果不佳，在我运行模型的语料库样本中，大量应该是英语的关键字被错误地识别为西班牙语。

我认为我可以使用整个 1.9GB 进行训练，而不是使用来自每种语言的相同大小的样本。英文文件占集合的更大部分，也许可以更好地防止误报。然而，在实践中，上面的脚本似乎内存不足并在训练模型时自行终止。我的问题是，有没有办法通过以某种块处理 1.9GB 集来让模型自行训练？如果没有，有没有其他方法可以尝试在英文关键字上增加“权重”？