如何解决如何从Scala中的PDF文件中提取其他sysmbols
尝试:
val foldedFlow = Flow[ByteString].fold(ByteString()) {
case (bs,element) => bs ++ element
}
val logFlow = Flow.fromFunction { bytes: ByteString =>
logger.info("Received test bytes: " + bytes.length)
bytes
}
val result: ByteString = Await.result(response.entity.dataBytes
.via(logFlow)
.via(foldedFlow)
.runWith(Sink.head[ByteString])(client.materializer),10.seconds)
val pdf = PDDocument.load(result.toArray[Byte])
val stripper = new PDFTextStripper
val contents = stripper.getText(pdf)
pdf.close()
contents
输入:
私は素晴らしいよ原因こんにちは、これは日本語のテキストの例は、正しくレンダリ
ングです!
S0001 HEADACHE Mar 22,2014
S0008 NAUSEA May 18,2014
S0011 STOMACACHE Feb 12,2008
S0001 HEADACHE Mar 22,2008
输出:
S0001 HEADACHE Mar 22,2008
pdftextstripper无法从文件中提取“私は素晴らしいよ原因こんにちは,これは日本语のテキストの例は,正しくレン” 如何解决这个建议一些
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。