微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何解决在R中使用pdf_tool的pdf_text函数将pdf转换为文本的可能的编码问题

如何解决如何解决在R中使用pdf_tool的pdf_text函数将pdf转换为文本的可能的编码问题

我尝试了以下代码来读取目录中的多个期刊文章pdf,将其转换为文本,并将其存储在r中的列表中。

myFiles <- list.files(path = ".",pattern = "pdf",full.names = TRUE)

parsedFiles <- lapply(myFiles,function(f) {
                        print(f)
                        tryPDF <- gsub("\\s+"," ",pdf_text(f))
                        if (all(tryPDF[-1] == "")) {
                          compiledPDF <- do.call(c,lapply(1:length(tryPDF),function(pg) {
                                                          bitmap <-
                                                            pdf_render_page(
                                                              pdf = f,page = pg,dpi = 200,numeric = TRUE
                                                            )
                                                          tiff::writeTIFF(bitmap,"temp.tiff")
                                                          out <- ocr("temp.tiff")
                                                          return(out)
                                                        }))
                          return(compiledPDF)
                          
                        }
                        return(tryPDF)
                      })

但是我得到了我认为是编码错误的信息,其中fi或类似firms的单词在pdf文本版本中显示efficient ,例如<U+FB01><U+FB01>rms

关于如何调整以上代码解决此问题的任何想法?现在有什么想法吗?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。