如何解决将 PDF 转换为文本:Adobe Reader 与 Python 库
PDF 的结构稳定但很复杂,因为它也包含元素和图形,这些元素和图形有时也用作写在特定位置的文本的背景。因此,我想提取尽可能多的文本。
我首先尝试使用 Adobe Reader 功能将 PDF 保存为文本,这可以提供良好的结果,但不允许此过程完全自动化。至少我不知道有什么方法可以通过命令行或 .
与 Adobe Reader 交互。因此,我尝试了一些为此目的而设计的 python 库,但它们似乎有不同的方式将 pdf 转换为文本。我尝试了 Pdfminer、PyPDF2 和 pdftotext。没有一个库给我与 Adobe Reader 相同的结果。
PDF 如下所示(由于不相关的敏感数据而略有裁剪):
OCT 15° (4.3 mm) ART (25) Q:34 [HR]
ILMILM200μm200μm 04590135180225270315360
TMPTSNSNASNITITMP
1000 800 600 400 200 0
位置 [°]
抄送 7.7 (APS)
G227(12%) T206(54%) TS226(20%) TI304(38%) N203(5%) NS213(6%) NI276(12%) 分割未确认!分类 MRW 内 正常限制
OCT ART (100) 问:31 [HS]
ILMILMRNFLRNFL200μm200μm 111 04590135180225270315360
300 240 180 120 60 0
TMP TS NS NAS NI TI TMP
位置 [°]
抄送 7.7 (APS)
分类 RNFLT 超出正常范围
G78
WithinnormalLimits(>5%) Borderline(
平均厚度 [�m]
体积 [mm�] 8.26
200 米 200 米
OCT 20.0�(5.6 毫米)ART (21) Q:25 [HS]
267 1.42
321 0.50
335 0.53
299 1.59
中心:
中央最低:
中央最大:
222 米
221 米
314 米
圆直径:1、3、6 毫米 ETDRS
292 1.55
331 0.52
272 0.21
326 0.51
271 1.44
ILMILM
BMBM
200 米 200 米
这是非常不同的。是否有任何原因,您是否知道任何具有与 Adobe Reader 相同的功能将 PDF 转换为文本的 Python 库?
解决方法
不一定解释为什么 Adobe Reader 从 pdf 中提取文本的方式与某些 Python 库不同,但我已经使用 tika 实现了一个非常好的解决方案。
这是提卡提取的:
OCT 15� (4.2 毫米) ART (26) Q:31 [HR]
NITSTMP NAS TMPTINSM 在
我是你
米 R
我是 W
id th
[ �
米]
1000 800 600 400 200
0
位置 [�]
36031527022518013590450
ILMILM
RNFLRNFL
200 �m200 �m
OCT ART (100) 问:27 [HS]
NITSTMP NAS TMPTINS
R N
F L T
嘿嘿
e ss (3
.5 米
m ) [�
米]
300 240 180 120 60 0
位置 [�]
36031527022518013590450
40
G 240
(10%)
T 239
(70%)
TS 213 (9%)
TI 285
(22%)
N 230 (5%)
NS 209 (3%)
NI 283 (9%)
CC 7.7 (APS)
分割未确认!
分类 MRW
边界线
G 78
T 58
(8%)
TS 91
(2%)
TI 124 (6%)
N 64
(8%)
NS 110
(43%)
NI 71
(4%)
CC 7.7 (APS)
分割未确认!
分类 RNFLT
超出正常范围
在正常范围内 (>5%)
边界线 (
参考数据库:欧洲血统 (2014)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。