微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

RTF文件中提取obj数据的最简单方法

如何解决RTF文件中提取obj数据的最简单方法

我想提取 RTF 文件中嵌入的 OLE 对象。 我更喜欢用 Java 实现它,所以我阅读了 Apache Tika RTFParser (1.25 & 2.0-ALPHA) 的文档和源代码,发现 Tika 只是为了搜索目的提取文本,无法获取 obj 数据。或许基于TextExtractor写一些代码是可行的。

然后我也尝试了 this post in C#,但在 Packagedobject.Extract 中的 if (type != 3) // 3 is file,1 is link 上出错。

谁能帮我找出在 RTF 文件提取 obj 数据的最简单方法(更少的代码)是什么?首选跨平台和服务器端解决方案(Java 或 .net-core)。但是用Word。 C#中的应用并不可观,因为它依赖于Word客户端,有时会意外终止。

解决方法

如果您想使用 Apache Tika 提取原始字节,请尝试使用 Tika 应用程序的 -z 命令行选项或使用 tika-server 的 /unpack endpoint。是的,Tika 专注于文本/元数据提取,但它也可用于提取原始嵌入文件。

,

您可能会发现这是一个有用的起点:https://github.com/joniles/mpxj/blob/master/src/main/java/net/sf/mpxj/mpp/RTFEmbeddedObject.java#L149

这是为了让 MPXJ 用户提取嵌入在 RTF 笔记中的对象。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。