微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何检测扩展名为 Excel .xls 的 HTML 文件

如何解决如何检测扩展名为 Excel .xls 的 HTML 文件

我有一个 Java 应用程序,可以自动处理电子邮件中的 excel 文件(.xls、xlsx 等)。我注意到有些文件不是本机文件。在 Excel 中打开将发出警告,指出文件已损坏/格式错误。在记事本++中打开清楚地显示HTML

不幸的是,我不能只是手动处理这些文件,所以我需要一种方法自动发现它们。

我注意到当我使用 java.io.file 对象然后使用 org.apache.tika.Tika 我可以检测到类型。因此,使用文件对象我可以找到扩展名,并且使用 tika.detect() 我可以找到该格式称为“text/html”。 (不确定这是否是最好的方法,但它似乎适用于我的单一示例)

所以我可以使用以下方法找到这些类型的文件

File file = getTheFileObject();
if ( tika.detect(file).equalsIgnoreCase("text/html") && file.getName().contains(".xls") ) { ... do what I want with the corrupt file... }

我的问题是在对电子邮件附件执行类似操作时出现的。为了从电子邮件获取文件,我使用了 com.microsoft.ews-java-api 2.0,从中我可以获得一个代表文件的 FileAttachment 对象。

但是当我尝试在这个(同一个损坏的文件)上使用 tika.detect() 时,我得到了一个不同的格式输出“application/octet-stream”而不是“text/html”。或者使用 FileAttachments 自己的方法获取“application/vnd.ms-excel”

如果我无法发现 html 格式的 xls 文件,我该如何发现这些损坏的文件

FileAttachment attachment = getFileAttachment();
attachment.getContentType() //application/vnd.ms-excel
tika.detect(attachment.getContentStream()) //application/octet-stream 

我如何从电子邮件 ews FileAttachment 对象中发现具有 .xls 文件扩展名的 html 文件? tika 还会有帮助吗?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。