微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何通过文本从.pdf查找页码?

如何解决如何通过文本从.pdf查找页码?

我有一个包含120个证书的.pdf,每个页面都是一个证书,唯一的区别是参与者的姓名。

我还有一个.csv,其中包含名称和电子邮件(稍后我还将尝试通过R发送电子邮件)。

如何拆分每个证书(页面)并用参与者名称保存到新的.pdf中?

我看到了pdf_subset中的library(pdftools)之类的功能,但是如何通过一些文本识别页码

# extract some pages
pdf_subset('https://cran.r-project.org/doc/manuals/r-release/R-intro.pdf',pages = 1:3,output = "subset.pdf")

.pdf的示例: https://drive.google.com/file/d/1iwgW6kMT7C9Xee5SM65vz-D8B26bpavz/view?usp=sharing

在.csv中,我具有列名

name,Prof. Dr. Thiado Souza,Prof. Dr. marcelo Jose ́,Ricado Augusto,Carlos Jose ́,

解决方法

pdf_text返回一个字符向量,其中每个元素代表单独的页面。

library(pdftools)
data <- pdf_text('https://cran.r-project.org/doc/manuals/r-release/R-intro.pdf')

data[1]是pdf的第一页,data[2]是pdf的第二页,依此类推。因此,您可以一次将一个页面子集,也可以将前10个页面像data[1:10]这样的多页面子集。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。