我有一个联系人在解析RSS和Atom文件时遇到SAX问题.根据他的说法,就好像来自Item元素的文本被截断为撇号或有时是重音字符.编码似乎也有问题.
我已经尝试过SAX了,我也有一些截断,但是还没有进一步挖掘.如果有人在此之前解决了这个问题,我会很感激.
这是在ContentHandler中使用的代码:
public void characters( char[],int start,int end ) throws SAXException { // link = new String(ch,start,end);
编辑:编码问题可能是由于将信息存储在字节数组中,因为我知道Java在Unicode中工作.
解决方法
不保证characters()方法在一次传递中为您提供文本元素的完整字符内容 – 全文可能跨越缓冲区边界.您需要在开始和结束元素事件之间自己缓冲字符.
例如
StringBuilder builder; public void startElement(String uri,String localName,String qName,Attributes atts) { builder = new StringBuilder(); } public void characters(char[] ch,int length) { builder.append(ch,length); } public void endElement(String uri,String qName) { String theFullText = builder.toString(); }
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。