如何解决使用 Jsoup 逐步排除元素
我想获得以下网址的可读文本版本: https://www.dw.com/de/viele-deutsche-wollen-digitalen-corona-impfpass/a-56722411
为此,我在下面的代码中使用了 Jsoup 1.13.1 功能:
Document document = Jsoup.connect(url).timeout(7000).userAgent("curl/7.58.0").get();
// 1. Include main content
Elements elements = document.select("div#bodyContent div.col3");
// 2. Exclude pics and their descriptions from the main content
elements = elements.select("div:not(.picBox.full)");
// Custom method to extract plain text
return getPlainText(elements);
...
但是在执行之后我仍然可以看到纯文本中的图片描述。我是否错误地使用了 Jsoup?
这里是主要内容div
的CCS路径:
#bodyContent > div.col3
这里是图片div
的CCS路径:
#bodyContent > div.col3 > div.picBox.full
图片 div
应该在步骤 2 中排除。不是吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。