如何解决如何检测扩展名为 Excel .xls 的 HTML 文件
我有一个 Java 应用程序,可以自动处理电子邮件中的 excel 文件(.xls、xlsx 等)。我注意到有些文件不是本机文件。在 Excel 中打开将发出警告,指出文件已损坏/格式错误。在记事本++中打开清楚地显示HTML
不幸的是,我不能只是手动处理这些文件,所以我需要一种方法来自动发现它们。
我注意到当我使用 java.io.file 对象然后使用 org.apache.tika.Tika 我可以检测到类型。因此,使用文件对象我可以找到扩展名,并且使用 tika.detect() 我可以找到该格式称为“text/html”。 (不确定这是否是最好的方法,但它似乎适用于我的单一示例)
File file = getTheFileObject();
if ( tika.detect(file).equalsIgnoreCase("text/html") && file.getName().contains(".xls") ) { ... do what I want with the corrupt file... }
我的问题是在对电子邮件附件执行类似操作时出现的。为了从电子邮件中获取文件,我使用了 com.microsoft.ews-java-api 2.0,从中我可以获得一个代表文件的 FileAttachment 对象。
但是当我尝试在这个(同一个损坏的文件)上使用 tika.detect() 时,我得到了一个不同的格式输出“application/octet-stream”而不是“text/html”。或者使用 FileAttachments 自己的方法获取“application/vnd.ms-excel”
如果我无法发现 html 格式的 xls 文件,我该如何发现这些损坏的文件?
FileAttachment attachment = getFileAttachment();
attachment.getContentType() //application/vnd.ms-excel
tika.detect(attachment.getContentStream()) //application/octet-stream
我如何从电子邮件 ews FileAttachment 对象中发现具有 .xls 文件扩展名的 html 文件? tika 还会有帮助吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。