微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

java – 如何解析包含BOM的XML文件?

我想使用JDOM从URL解析 XML文件.但是在尝试这个时:
SAXBuilder builder = new SAXBuilder();
builder.build(aUrl);

我得到这个例外:

Invalid byte 1 of 1-byte UTF-8 sequence.

我认为这可能是BOM问题.所以我查看了源代码并在文件开头看到了BOM.我尝试使用aUrl.openStream()从URL读取并使用Commons IO BOMInputStream删除BOM.但令我惊讶的是它没有检测到任何BOM.
我尝试从流中读取并写入本地文件并解析本地文件.我将InputStreamReader和OutputStreamWriter的所有编码设置为UTF8但是当我打开文件时它有疯狂的字符.

我认为问题在于源URL编码.但是当我在浏览器中打开URL并将XML保存在文件中并通过上述过程读取该文件时,一切正常.

我对这个问题的可能原因表示感谢.

解决方法

该HTTP服务器正在以GZIP形式发送内容(content-encoding:gzip;如果您不知道这意味着什么,请参阅 http://en.wikipedia.org/wiki/HTTP_compression),因此您需要将aUrl.openStream()包装在GZIPInputStream中,它将为您解压缩它.例如:
builder.build(new GZIPInputStream(aUrl.openStream()));

根据后续评论编辑添加:如果您事先不知道URL是否为GZIPped,您可以这样写:

private InputStream openStream(final URL url) throws IOException
{
    final URLConnection cxn = url.openConnection();
    final String contentEncoding = cxn.getContentEncoding();
    if(contentEncoding == null)
        return cxn.getInputStream();
    else if(contentEncoding.equalsIgnoreCase("gzip")
               || contentEncoding.equalsIgnoreCase("x-gzip"))
        return new GZIPInputStream(cxn.getInputStream());
    else
        throw new IOException("Unexpected content-encoding: " + contentEncoding);
}

(警告:未经测试)然后使用:

builder.build(openStream(aUrl.openStream()));

.这基本上等同于上面的内容 – aUrl.openStream()被明确记录为aUrl.openConnection().getInputStream()的简写 – 除了它在决定是否在GZIPInputStream中包装流之前检查content-encoding头. .

the documentation for java.net.URLConnection.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


应用场景 C端用户提交工单、工单创建完成之后、会发布一条工单创建完成的消息事件(异步消息)、MQ消费者收到消息之后、会通知各处理器处理该消息、各处理器处理完后都会发布一条将该工单写入搜索引擎的消息、最终该工单出现在搜索引擎、被工单处理人检索和处理。 事故异常体现 1、异常体现 从工单的流转记录发现、
线程类,设置有一个公共资源 package cn.org.chris.concurrent; import java.util.concurrent.locks.Lock; import java.util.concurrent.locks.ReentrantLock; /** * @Descrip
Java中的数字(带有0前缀和字符串)
在Java 9中使用JLink的目的是什么?
Java Stream API Filter(过滤器)
在Java中找到正数和负数数组元素的数量
Java 9中JShell中的不同启动脚本是什么?
使用Java的位填充错误检测技术
java中string是什么
如何使用Java中的JSON-lib API将Map转换为JSON对象?