技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

c# – 如何从pdf文件中提取附件？

时间：2019-11-26分类：C#作者：编程之家

我有一大堆带有xml文件的pdf文档.我想提取那些附加的xml文件并阅读它们.如何使用.net以编程方式执行此操作？

解决方法

iTextSharp也能够提取附件……虽然您可能必须使用低级别对象来执行此操作.

有两种方法可以在PDF中嵌入文件：

>在文件注释中
>在文档级别“EmbeddedFiles”.

从任一源获得文件规范字典后,文件本身将成为标记为“EF”(嵌入文件)的字典中的流.

因此,要列出文档级别的所有文件,可以编写代码(使用Java)：

Map<String,byte[]> files = new HashMap<String,byte[]>();

PdfReader reader = new PdfReader(pdfPath);
PdfDictionary root = reader.getCatalog();
PdfDictionary names = root.getAsDict(PdfName.NAMES); // may be null
PdfDictionary embeddedFilesDict = names.getAsDict(PdfName.EMbedDEDFILES); //may be null
PdfArray embeddedFiles = embeddedFilesDict.getAsArray(PdfName.NAMES); // may be null

int len = embeddedFiles.size();
for (int i = 0; i < len; i += 2) {
  PdfString name = embeddedFiles.getAsstring(i); // should always be present
  PdfDictionary fileSpec = embeddedFiles.getAsDict(i+1); // ditto

  PdfDictionary streams = fileSpec.getAsDict(PdfName.EF);
  PRStream stream = null;

  if (streams.contains(PdfName.UF))
    stream = (PRStream)streams.getAsstream(PdfName.UF);
  else
    stream = (PRStream)streams.getAsstream(PdfName.F); // Default stream for backwards compatibility

  if (stream != null) {
    files.put( name.toUnicodeString(),PdfReader.getStreamBytes((PRStream)stream));
  }
}

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：c# – ReSharper,如何显示所有提示下一篇：c# – Activator.CreateInstance(…

相关推荐

C#项目进行IIS部署过程中报错及其解决方案

C#项目进行IIS部署过程中报错及其一般解决方案_c#iis执行语句产生错误!无效操作。连接被关闭。

作者：于初见月时间：2024-09-24

微信扫码登录PC端网站应用的案例（C#）

微信扫码登录PC端网站应用的案例（C#）_c# 微信扫码登录

作者：于初见月时间：2024-09-24

深入探索.NET框架内部了解CLR如何创建运行时对象

原文地址：http://msdn.microsoft.com/en-us/magazine/cc163791.aspx 原文发布日期： 9/19/2005 原文已经被 Microsoft 删除了，收集过程中发现很多文章图都不全，那是因为原文的图都不全，所以特收集完整全文。目录前言 CLR启动程序

作者：Savorboard 时间：2024-07-31

利用FlubuCore用C#来写DevOps脚本

前言随着近些年微服务的流行，有越来越多的开发者和团队所采纳和使用，它的确提供了很多的优势也解决了很多的问题，但是我们也知道也并不是银弹，提供优势的同时它也给我们的开发人员和团队也带来了很多的挑战。为了迎接或者采用这些新技术，开发团队需要更加注重一些流程或工具的使用，这样才能更好的适应这些新技术所

作者：Savorboard 时间：2024-07-31

PLINQ中的分区

最近因为比较忙，好久没有写博客了，这篇主要给大家分享一下PLINQ中的分区。上一篇介绍了并行编程，这边详细介绍一下并行编程中的分区和自定义分区。先做个假设，假设我们有一个200Mb的文本文件需要读取，怎么样才能做到最优的速度呢？对，很显然就是拆分，把文本文件拆分成很多个小文件，充分利用我们计算机中

作者：Savorboard 时间：2024-07-31

并行编程(PLINQ)学习笔记

在多核CPU在今天和不久的将来，计算机将拥有更多的内核，Microsoft为了利用这个硬件特性，于是在Visual Studio 2010 和 .NET Framework 4的发布及以上版本中，添加了并行编程这个新特性，我想它以后势必会改变我们的开发方式。在以前或者说现在，我们在并行开发的时候可

作者：Savorboard 时间：2024-07-31

c语言输入成绩怎么判断等级

c语言输入成绩怎么判断等级

作者：编程之家时间：2023-09-11

字符型数据在内存中的存储形式是什么

字符型数据在内存中的存储形式是什么

作者：编程之家时间：2023-09-11

c语言怎么求字符串的长度并输出

c语言怎么求字符串的长度并输出

作者：编程之家时间：2023-09-11

c语言函数的三种调用方式是什么

c语言函数的三种调用方式是什么

作者：编程之家时间：2023-09-11

小编推荐

苹果市值2025年有望达4万亿美元