微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何从Scala中的PDF文件中提取其他sysmbols

如何解决如何从Scala中的PDF文件中提取其他sysmbols

给出:一个PDF文件,我想从该pdf文件提取符号。

尝试:

val foldedFlow = Flow[ByteString].fold(ByteString()) {
  case (bs,element) => bs ++ element
}
val logFlow = Flow.fromFunction { bytes: ByteString =>
  logger.info("Received test bytes: " + bytes.length)
  bytes
}

     val result: ByteString = Await.result(response.entity.dataBytes
          .via(logFlow)
          .via(foldedFlow)
          .runWith(Sink.head[ByteString])(client.materializer),10.seconds)
    
        val pdf = PDDocument.load(result.toArray[Byte])
        val stripper = new PDFTextStripper
        val contents = stripper.getText(pdf)
        pdf.close()
        contents

输入:

 私は素晴らしいよ原因こんにちは、これは日本語のテキストの例は、正しくレンダリ
ングです!
S0001 HEADACHE Mar 22,2014
S0008 NAUSEA May 18,2014
S0011 STOMACACHE Feb 12,2008
S0001 HEADACHE Mar 22,2008

输出

S0001 HEADACHE Mar 22,2008

pdftextstripper无法从文件提取“私は素晴らしいよ原因こんにちは,これは日本语のテキストの例は,正しくレン” 如何解决这个建议一些

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。