微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

WebMagic 垂直爬虫

程序名称:WebMagic

授权协议: Apache

操作系统: 跨平台

开发语言: Java

WebMagic 介绍

webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。

以下是爬取oschina博客的一段代码

Spider.create(new SimplePageProcessor("http://my.oschina.net/",
"http://my.oschina.net/*/blog/*")).thread(5).run();

webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能

webmagic包含强大的页面抽取功能,开发者可以便捷的使用css
selector、xpath和正则表达式进行链接内容提取支持多个选择器链式调用。例如:

String extractResult = Html.create(html).$("div.body")
.xpath("//a/@href").regex(".*blog.*").toString();

webmagic也可以很方便的作为一个模块,嵌入Java项目中运行。webmagic的使用可以参考:oschina openapi
应用:博客搬家

webmagic的使用文档:http://webmagic.io/docs/

webmagic的设计文档:webmagic的设计机制及原理-
如何开发一个Java爬虫

WebMagic 官网

http://webmagic.io/

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐