微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

java – 如何将HTML转换为文本保持换行符

如何将 HTML转换为文本保持换行符(由br,p,div等元素生成)可能使用 NekoHTML或任何足够好的HTML解析器

例:
你好&LT峰; br />世界
至:

Hello\n  
World

解决方法

这是我通过使用Jsoup迭代节点来输出文本(包括换行符)的函数.
public static String htmlToText(InputStream html) throws IOException {
    Document document = Jsoup.parse(html,null,"");
    Element body = document.body();

    return buildStringFromNode(body).toString();
}

private static StringBuffer buildStringFromNode(Node node) {
    StringBuffer buffer = new StringBuffer();

    if (node instanceof TextNode) {
        TextNode textNode = (TextNode) node;
        buffer.append(textNode.text().trim());
    }

    for (Node childNode : node.childNodes()) {
        buffer.append(buildStringFromNode(childNode));
    }

    if (node instanceof Element) {
        Element element = (Element) node;
        String tagName = element.tagName();
        if ("p".equals(tagName) || "br".equals(tagName)) {
            buffer.append("\n");
        }
    }

    return buffer;
}

原文地址:https://www.jb51.cc/java/125029.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐