微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Office 文件的 Mime 类型检测导致 application/x-tika-ooxml

如何解决Office 文件的 Mime 类型检测导致 application/x-tika-ooxml

我正在尝试检测文件输入流的 MIME 类型。

我的类路径中只有 tika 核心。我使用的是 2.0.0 版本。

但是对于 docx 文件“application/x-tika-ooxml”总是被检测到。 Office 文件检测总是导致 x-tika-ooxml。

我也尝试将输入流包装在 TikaInputStream 中,但结果相同。

下面是我的代码

public class TikaTester {
        
        public static void main (String a[]) {
            
            try {
                FileInputStream stream = new FileInputStream("/Users/<>/Downloads/Test DMS.docx");
                detectMimeType(stream);
            } catch (FileNotFoundException e) {
                // Todo Auto-generated catch block
                e.printstacktrace();
            }
            
        }
        
        public static void detectMimeType(InputStream stream) {
            Tika tika = new Tika();
            try {
                String mimeType = tika.detect(stream);
                System.out.println("Mime type detected " + mimeType);
            } catch (IOException e) {
                // Todo Auto-generated catch block
                e.printstacktrace();
            }
        }
    
    }

解决方法

如果我在类路径中添加 tika-parsers 并且需要使用 TikaInputStream,这会起作用。

可能是 tika 核心没有办公文件的解析器。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。