微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

将 PDF 转换为文本:Adobe Reader 与 Python 库

如何解决将 PDF 转换为文本:Adobe Reader 与 Python 库

我有一个 PDF,我尝试将其转换为文本以供进一步处理。

PDF 的结构稳定但很复杂,因为它也包含元素和图形,这些元素和图形有时也用作写在特定位置的文本的背景。因此,我想提取尽可能多的文本。

我首先尝试使用 Adob​​e Reader 功能将 PDF 保存为文本,这可以提供良好的结果,但不允许此过程完全自动化。至少我不知道有什么方法可以通过命令行或 .

与 Adob​​e Reader 交互。

因此,我尝试了一些为此目的而设计的 python 库,但它们似乎有不同的方式将 pdf 转换为文本。我尝试了 Pdfminer、PyPDF2 和 pdftotext。没有一个库给我与 Adob​​e Reader 相同的结果。

PDF 如下所示(由于不相关的敏感数据而略有裁剪):

enter image description here

Adobe 提取以下文本:

OCT 15° (4.3 mm) ART (25) Q:34 [HR]

ILMILM200μm200μm 04590135180225270315360

TMPTSNSNASNITITMP

1000 800 600 400 200 0

位置 [°]

抄送 7.7 (APS)

G227(12%) T206(54%) TS226(20%) TI304(38%) N203(5%) NS213(6%) NI276(12%) 分割未确认!分类 MRW 内 正常限制

OCT ART (100) 问:31 [HS]

ILMILMRNFLRNFL200μm200μm 111 04590135180225270315360

300 240 180 120 60 0

TMP TS NS NAS NI TI TMP

位置 [°]

抄送 7.7 (APS)

分类 RNFLT 超出正常范围

G78

WithinnormalLimits(>5%) Borderline(

虽然,例如,PDFminer 提取

平均厚度 [�m]

体积 [mm�] 8.26

200 米 200 米

OCT 20.0�(5.6 毫米)ART (21) Q:25 [HS]

267 1.42

321 0.50

335 0.53

299 1.59

中心:

中央最低:

中央最大:

222 米

221 米

314 米

圆直径:1、3、6 毫米 ETDRS

292 1.55

331 0.52

272 0.21

326 0.51

271 1.44

ILMILM

BMBM

200 米 200 米

这是非常不同的。是否有任何原因,您是否知道任何具有与 Adob​​e Reader 相同的功能将 PDF 转换为文本的 Python 库?

解决方法

不一定解释为什么 Adob​​e Reader 从 pdf 中提取文本的方式与某些 Python 库不同,但我已经使用 tika 实现了一个非常好的解决方案。

这是提卡提取的:

OCT 15� (4.2 毫米) ART (26) Q:31 [HR]

NITSTMP NAS TMPTINSM 在

我是你

米 R

我是 W

id th

[ �

米]

1000 800 600 400 200

0

位置 [�]

36031527022518013590450

ILMILM

RNFLRNFL

200 �m200 �m

OCT ART (100) 问:27 [HS]

NITSTMP NAS TMPTINS

R N

F L T

嘿嘿

e ss (3

.5 米

m ) [�

米]

300 240 180 120 60 0

位置 [�]

36031527022518013590450

40

G 240

(10%)

T 239

(70%)

TS 213 (9%)

TI 285

(22%)

N 230 (5%)

NS 209 (3%)

NI 283 (9%)

CC 7.7 (APS)

分割未确认!

分类 MRW

边界线

G 78

T 58

(8%)

TS 91

(2%)

TI 124 (6%)

N 64

(8%)

NS 110

(43%)

NI 71

(4%)

CC 7.7 (APS)

分割未确认!

分类 RNFLT

超出正常范围

在正常范围内 (>5%)

边界线 (

参考数据库:欧洲血统 (2014)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。