如何有效地从R中的PDF提取表格数据？

我想使用R从数千个PDF文档中有效地提取表格数据。我通常将PDF数据转换为文本字符串，然后按位置提取信息，但是这些特定的表通常缺少数据，如以下示例所示。丢失数据的位置在文档之间有所不同。谁能建议一种这样做的方法？

PDF类型的示例

我为此使用了两个软件包。哪个更好取决于您到底需要做什么。假设您的表格在PDF的第10-16页上：

您应该能够使用tabulizer包从所述页面提取数据：

tab <- tabulizer::extract_tables(file = "path/file.pdf",pages = 10:16)
如果只需要文本，则应使用pdftools，它要快得多：

text <- pdftools::pdf_text("path/file.pdf")[10:16]