如何解决如何使用pdf_tools包pdf_data函数生成的坐标?
我正在尝试使用pdftools包从以下pdf中提取数据表: https://www1.nyc.gov/assets/nycha/downloads/pdf/Address-Guide-04-23-2020.pdf
如果可能的话,我想避免使用制表剂解决方案。
使用pdf_data函数,我可以生成代表pdf每页的小标题列表,但是在此之后,我很困惑如何使用坐标进行操作:
nycha2 <- pdf_data(pdf_file)
width height x y space text
<int> <int> <int> <int> <lgl> <chr>
1 31 14 39 18 TRUE NYCHA
2 47 14 73 18 TRUE PROPERTY
3 52 14 123 18 FALSE DIRECTORY
4 43 14 39 33 TRUE ADDRESS
5 28 14 85 33 FALSE GUIDE
6 38 8 61 48 FALSE ADDRESS
7 31 14 540 18 FALSE broNX
8 60 8 217 48 FALSE DEVELOPMENT
9 35 8 123 49 FALSE ZIPCODE
10 40 8 358 48 TRUE MANAGED
# ... with 733 more rows
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。