微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

GuozhongCrawler 开源爬虫框架

程序名称:GuozhongCrawler

授权协议: EPL

操作系统: 跨平台

开发语言: Java

GuozhongCrawler 介绍

guozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。模块化设计完全
面向业务提供接口,功能覆盖整个爬虫的生命周期(链接提取页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试,定制执行js、
自定义cookie等功能。在处理网站抓取多次后被封IP的问题上,guozhongCrawler采用动态轮换IP机制有效防止IP被封。另外,源码中
的注释及Log输出全部采用通俗易懂的中文。让初学者能有更加深刻的理解

GuozhongCrawler 官网

https://git.oschina.net/woshidaniu/GuozhongCrawler

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐