将 PDF 转换为文本：Adobe Reader 与 Python 库

如何解决将 PDF 转换为文本：Adobe Reader 与 Python 库

我有一个 PDF，我尝试将其转换为文本以供进一步处理。

PDF 的结构稳定但很复杂，因为它也包含元素和图形，这些元素和图形有时也用作写在特定位置的文本的背景。因此，我想提取尽可能多的文本。

我首先尝试使用 Adobe Reader 功能将 PDF 保存为文本，这可以提供良好的结果，但不允许此过程完全自动化。至少我不知道有什么方法可以通过命令行或 .

与 Adobe Reader 交互。

因此，我尝试了一些为此目的而设计的 python 库，但它们似乎有不同的方式将 pdf 转换为文本。我尝试了 Pdfminer、PyPDF2 和 pdftotext。没有一个库给我与 Adobe Reader 相同的结果。

PDF 如下所示（由于不相关的敏感数据而略有裁剪）：

Adobe 提取以下文本：

OCT 15° (4.3 mm) ART (25) Q：34 [HR]

ILMILM200μm200μm 04590135180225270315360

TMPTSNSNASNITITMP

1000 800 600 400 200 0

位置 [°]

抄送 7.7 (APS)

G227(12%) T206(54%) TS226(20%) TI304(38%) N203(5%) NS213(6%) NI276(12%) 分割未确认！分类 MRW 内正常限制

OCT ART (100) 问：31 [HS]

ILMILMRNFLRNFL200μm200μm 111 04590135180225270315360

300 240 180 120 60 0

TMP TS NS NAS NI TI TMP

位置 [°]

抄送 7.7 (APS)

分类 RNFLT 超出正常范围

G78

WithinnormalLimits(>5%) Borderline(

虽然，例如，PDFminer 提取：

平均厚度 [�m]

体积 [mm�] 8.26

200 米 200 米

OCT 20.0�（5.6 毫米）ART (21) Q：25 [HS]

267 1.42

321 0.50

335 0.53

299 1.59

中心：

中央最低：

中央最大：

222 米

221 米

314 米

圆直径：1、3、6 毫米 ETDRS

292 1.55

331 0.52

272 0.21

326 0.51

271 1.44

ILMILM

BMBM

200 米 200 米

这是非常不同的。是否有任何原因，您是否知道任何具有与 Adobe Reader 相同的功能将 PDF 转换为文本的 Python 库？

解决方法

不一定解释为什么 Adobe Reader 从 pdf 中提取文本的方式与某些 Python 库不同，但我已经使用 tika 实现了一个非常好的解决方案。

这是提卡提取的：

OCT 15� (4.2 毫米) ART (26) Q：31 [HR]

NITSTMP NAS TMPTINSM 在

我是你

米 R

我是 W

id th

[ �

米]

1000 800 600 400 200

位置 [�]

36031527022518013590450

ILMILM

RNFLRNFL

200 �m200 �m

OCT ART (100) 问：27 [HS]

NITSTMP NAS TMPTINS

R N

F L T

嘿嘿

e ss (3

.5 米

m ) [�

米]

300 240 180 120 60 0

位置 [�]

36031527022518013590450

G 240

(10%)

T 239

(70%)

TS 213 (9%)

TI 285

(22%)

N 230 (5%)

NS 209 (3%)

NI 283 (9%)

CC 7.7 (APS)

分割未确认！

分类 MRW

边界线

G 78

T 58

(8%)

TS 91

(2%)

TI 124 (6%)

N 64

(8%)

NS 110

(43%)

NI 71

(4%)

CC 7.7 (APS)

分割未确认！

分类 RNFLT

超出正常范围

在正常范围内 (>5%)

边界线 (

参考数据库：欧洲血统 (2014)