微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何使用pdf_tools包pdf_data函数生成的坐标?

如何解决如何使用pdf_tools包pdf_data函数生成的坐标?

我正在尝试使用pdftools包从以下pdf中提取数据表: https://www1.nyc.gov/assets/nycha/downloads/pdf/Address-Guide-04-23-2020.pdf

如果可能的话,我想避免使用制表剂解决方案。

使用pdf_data函数,我可以生成代表pdf每页的小标题列表,但是在此之后,我很困惑如何使用坐标进行操作:

nycha2 <- pdf_data(pdf_file)

   width height     x     y space text       
   <int>  <int> <int> <int> <lgl> <chr>      
 1    31     14    39    18 TRUE  NYCHA      
 2    47     14    73    18 TRUE  PROPERTY   
 3    52     14   123    18 FALSE DIRECTORY  
 4    43     14    39    33 TRUE  ADDRESS    
 5    28     14    85    33 FALSE GUIDE      
 6    38      8    61    48 FALSE ADDRESS    
 7    31     14   540    18 FALSE broNX      
 8    60      8   217    48 FALSE DEVELOPMENT
 9    35      8   123    49 FALSE ZIPCODE    
10    40      8   358    48 TRUE  MANAGED    
# ... with 733 more rows 

post中提供的解决方案使我与之接近,但并非一直如此。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。