检查PDF是否为Word VBA中的图像/ OCR

如何解决检查PDF是否为Word VBA中的图像/ OCR

我正在Word中使用VBA打开一堆PDF文件（一个接一个），并查找一些文本。我运行的某些文件实际上是图像/不是OCR。我只想跳过它们，但是我不确定要执行哪种检查。在这些文件上，它仍然“找到”字符串，并进入我不希望它处理的代码部分。

CREATE FUNCTION pg_temp.mkdb(var text) RETURNS void
   LANGUAGE plpgsql STRICT AS
$$BEGIN
   EXECUTE format('CREATE DATABASE %I;','prefix_' || var || '_suffix');
END;$$;

SELECT pg_temp.mkdb(:'variable');

有人可以建议如何防止图像“通过”我的支票吗？谢谢！

解决方法

OCR'd PDF通常还将包含原始内容的图像和原始内容的图像。并且，根据OCR软件和输入图像的质量，您所追求的文本可能会或可能不会正确渲染。

尝试以下方法：

Dim pdfDoc As Word.Document
Set pdfDoc = Documents.Open(FileName:=FSOFile.Path,ConfirmConversions:=False,Format:=wdOpenFormatAuto)
With pdfDoc
  With .Range
    .Find.Execute FindText:="Evaluation Rating",MatchCase:=True
    If .Find.Found = True Then
      ' Process the found content,e.g.:
      MsgBox .Paragraphs(1).Range.Text
    End If
  End With
  .Close False
End With