微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何使用Jsoup解析内部和外部超链接

如何解决如何使用Jsoup解析内部和外部超链接

我正在练习Web Scraping,我想知道如何只抓取内部和外部超链接。我能够检索Jsoup文档之后的页面的所有链接,但仍然不知道该怎么做。

预先感谢您的帮助

解决方法

您可以尝试使用Document.getElementsByAttributeValueMatching()方法通过适当的正则表达式按属性名称和属性值查找元素。

例如,找到所有属性名称为“ href”且属性值以https://example.com开头的元素

    Document document = Jsoup.connect("https://example.com").get();
    Elements elements = document.getElementsByAttributeValueMatching("href","^https://example.com");

    for (Element element : elements) {
        System.out.println(element.attr("href"));
    }

也有一些类似的方法:

Document.getElementsByAttributeValueStarting()
Document.getElementsByAttributeValueContaining()

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。