微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何有效地从R中的PDF提取表格数据?

如何解决如何有效地从R中的PDF提取表格数据?

我想使用R从数千个PDF文档中有效地提取表格数据。我通常将PDF数据转换为文本字符串,然后按位置提取信息,但是这些特定的表通常缺少数据,如以下示例所示。丢失数据的位置在文档之间有所不同。谁能建议一种这样做的方法

PDF类型的示例

1

解决方法

我为此使用了两个软件包。哪个更好取决于您到底需要做什么。假设您的表格在PDF的第10-16页上:

  1. 您应该能够使用tabulizer包从所述页面提取数据:

    tab <- tabulizer::extract_tables(file = "path/file.pdf",pages = 10:16)

  2. 如果只需要文本,则应使用pdftools,它要快得多:

    text <- pdftools::pdf_text("path/file.pdf")[10:16]

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。