微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

在 Opennlp 中使用非常大接近 2GB的数据集进行训练?

如何解决在 Opennlp 中使用非常大接近 2GB的数据集进行训练?

我想使用 Opennlp 为大量关键字(约 10 亿 Kws)训练语言检测模型。语料库由 5 种主要语言组成。

对于训练数据集,我有多个包含每种语言样本的文件,训练数据集总共包含 1.9GB 的数据。

我使用 Opennlps LanguageDetectorTrainer 创建了一个训练集,每种语言花费了大约 600 万千瓦,并使用 Java 上的样本创建了一个模型:

// loading the training data to LanguageDetectorSampleStream
        LanguageDetectorSampleStream sampleStream = null;
        try {
            InputStreamFactory dataIn = new MarkableFileInputStreamFactory(new File("training_file.txt"));
            ObjectStream linestream = new PlainTextByLinestream(dataIn,"UTF-8");
            sampleStream = new LanguageDetectorSampleStream(linestream);
        } catch (FileNotFoundException e){
            e.printstacktrace();
        } catch (IOException e) {
            e.printstacktrace();
        }
  
        System.out.println("Training the model.....");
        // training parameters
        TrainingParameters params = new TrainingParameters();
        params.put(TrainingParameters.IteraTIONS_ParaM,100);
        params.put(TrainingParameters.CUTOFF_ParaM,2);
        params.put("DataIndexer","TwoPass");
        params.put(TrainingParameters.ALGORITHM_ParaM,NaiveBayesTrainer.NAIVE_BAYES_VALUE);
  
        // train the model
        try {
            model = LanguageDetectorME.train(sampleStream,params,new LanguageDetectorFactory());
        } catch (IOException e) {
            e.printstacktrace();
        }

然而,这种方法似乎效果不佳,在我运行模型的语料库样本中,大量应该是英语的关键字被错误地识别为西班牙语。

我认为我可以使用整个 1.9GB 进行训练,而不是使用来自每种语言的相同大小的样本。英文文件占集合的更大部分,也许可以更好地防止误报。然而,在实践中,上面的脚本似乎内存不足并在训练模型时自行终止。我的问题是,有没有办法通过以某种块处理 1.9GB 集来让模型自行训练?如果没有,有没有其他方法可以尝试在英文关键字上增加“权重”?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。