微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Java SAX Parser子元素与父元素具有相同标签时

如何解决Java SAX Parser子元素与父元素具有相同标签时

我正在尝试从一个带有div标签中的项目列表的网站抓取数据。然后在单个项目中,两个单独的部分也用div标签制成。一个带有图像,另一个带有文本和描述。在startElement中,我可以使用Attribute标识它们,但不能以endElement结尾。如何解析带有相同标签的项目?

我要抓取的项目示例:

<html>
<head>
    <Meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
    <title>JSP Page</title>
</head>
<body>
    <div class="o-ResultCard__m-MediaBlock m-MediaBlock">
        <div class="m-MediaBlock__m-textwrap">
            <h3 class="m-MediaBlock__a-Headline">
                <a href="abc.com"><span class="m-MediaBlock__a-HeadlineText">Air Fryer Chicken Wings</span></a>
            </h3>
            <div class="parbase recipeInfo time">
                <section class="o-RecipeInfo__o-Time">
                    <dl>
                        <dt class="o-RecipeInfo__a-Headline a-Headline">Total Time: 40 minutes</dt>
                    </dl>
                </section>
            </div>
        </div>
        <div class="m-MediaBlock__m-MediaWrap">
            <a href="abc.com" class="" title="Air Fryer Chicken Wings">
                <img src="https://dinnerthendessert.com/wp-content/uploads/2019/01/Fried-Chicken-2.jpg" class="m-MediaBlock__a-Image" alt="Air Fryer Chicken Wings">
            </a>
        </div>
    </div>
</body>

我的处理程序:

private String currentTag;
private FoodDAO dao;
private FoodsDTO dto;
private String itemIdentify = "o-ResultCard__m-MediaBlock m-MediaBlock";
private String itemmedia = "m-MediaBlock__m-MediaWrap";
private String itemText = "m-MediaBlock__m-textwrap";
private boolean foundItem;

public FoodHandler() {
    dao = new FoodDAO();
    foundItem = false;
}

@Override
public void startElement(String uri,String localName,String qName,Attributes attributes) throws SAXException {
    String attrVal = attributes.getValue(0);

    if (qName.equals("div") && attrVal.equals(itemIdentify)) {
        dto = new FoodsDTO();
        foundItem = true;
    }
    currentTag = qName;
}

@Override
public void endElement(String uri,String qName) throws SAXException {
    if (qName.endsWith("div")) {
        foundItem = false;
        try {
            dao.manageCrawl(dto);
        } catch (Exception e) {
            Logger.getLogger(NewsHandler.class.getName()).log(Level.SEVERE,null,e);
        }
    }
    currentTag = "";
}

解决方法

停止堆栈中的属性。

更具体地说,将属性的副本存储在Deque中:

private Deque<Attributes> attributesStack = new ArrayDeque<>();

@Override
public void startDocument() throws SAXException {
    // Clear the stack at start of parsing,in case this handler is
    // re-used for multiple parsing operations,and previous parse failed.
    attributesStack.clear();
}

@Override
public void startElement(String uri,String localName,String qName,Attributes attributes) throws SAXException {
    attributesStack.push(new AttributesImpl(attributes)); // Attributes must be copied
    
    // code here
}

@Override
public void endElement(String uri,String qName) throws SAXException {
    Attributes attributes = attributesStack.pop();
    
    // code here
}

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?