微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

从复杂的DOM结构中抓取文字

如何解决从复杂的DOM结构中抓取文字

在DOM中考虑以下层次结构

<div class="bodyCells">
    <div style="foo">
       <div style="foo">
           <div style="foo1"> 'contains the list of text elements I want to scrape' </div>
           <div style="foo2"> 'contains the list of text elements I want to scrape' </div>
       </div>
       <div style="foo">
           <div style="foo3"> 'contains the list of text elements I want to scrape' </div>
           <div style="foo4"> 'contains the list of text elements I want to scrape' </div>
       </div>

通过使用类名bodyCells ,我需要一次从每个div抓取数据(例如,最初从第一个div开始,然后从下一个div等,然后将其存储在 单独的数组中。 如何实现呢? (使用伪装者)

注意::我尝试直接使用类名来实现此目的,但是,它在单个数组中提供了所有文本。我需要分别从每个标签中以不同的数组获取数据。

预期输出

array1=["text present within style="foo1" div tag"] 
array2=["text present within style="foo2" div tag"] 
array3=["text present within style="foo3" div tag"]
array4=["text present within style="foo4" div tag"]

解决方法

如前所述,您可以使用类名在单个数组中获取每个文本。接下来,如果要遍历每个子类,则可以为每个小节创建一个单独的数组。

我在此处创建了一个小提琴-https://jsfiddle.net/32bnoey6/-使用以下示例代码:

$('[data-toggle="tooltip"]').tooltip();

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?