微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用Apache Tika进行合理的Tesseract OCR设置…?

如何解决使用Apache Tika进行合理的Tesseract OCR设置…?

我正在使用Apache Tika进行文本提取,并且必须处理扫描的PDF图像。所以我正在尝试Tesseract,但在通过良好的认设置找到任何好的资源时遇到了问题...?

我也遇到了奇怪的后处理工件:

我明白了:

“ och ptensionskos nader”

来自这张图片

input

实际上,似乎有些后期处理已将t移至单词的开头,而将其留为空白。对我来说似乎很奇怪,除非有一些非常差的后处理设置,否则为什么要这样做。

这些是我在Apache Tika中的基本设置:

    val pdfConfig: PDFParserConfig = {
      val pdfConf = new PDFParserConfig()
      pdfConf.setocrDPI(150)
      pdfConf.setDetectAngles(false)
      pdfConf.setocrStrategy(PDFParserConfig.OCR_STRATEGY.OCR_ONLY)
      pdfConf
    }

    val tesseractOCRConfig: TesseractOCRConfig = {
      val tessConf = new TesseractOCRConfig()
      tessConf.setLanguage("eng+swe")
      tessConf.setEnableImageProcessing(1)
      tessConf.setResize(100) // 100-900 - lower faster.
      // tessConf.setApplyRotation(true)
      tessConf
    }

任何帮助都受到赞赏!

解决方法

跳过/包含内部图像处理也是pdf配置中的重要属性

pdfConf.setExtractInlineImages(true) //for the scanned pdf setting it to false has no sense

在TesseractOCRConfig中,usefil也是setTimeout()

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。