微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Proxy-Pool 给爬虫使用的代理 IP 池

程序名称:Proxy-Pool

授权协议: Apache 2.0

操作系统: 跨平台

开发语言: Java

Proxy-Pool 介绍

ProxyPool

获取可用代理池的库,从网上抓取的代理很多都是不可用的。这个库先用爬虫抓取代理,再做一些检查是否可用,可用的话就存放到mongodb中。

ProxyPool可以供给网络爬虫使用,ProxyPool由Spring Boot+RxJava2.x+MongoDB搭建

使用方法

对于Java工程如果使用gradle构建,由于认没有使用jcenter(),需要在相应module的build.gradle中配置

repositories {
    mavenCentral()
    jcenter()
}

Gradle:

compile 'com.cv4j.proxy:proxypool:1.1.5'

本地需要事先搭建好MongoDB的环境。

可用的代理会存放到MongoDB中,每隔几小时(可配置)会重新抓取一次可用的代理。如果在抓取代理时遇到http status
503的情况,代理池会使用其中的代理来访问数据源再进行抓取。

最新的免费代理资源:http://47.97.7.119:8080/proxypool/proxylist

管理代理资源网站:http://47.97.7.119:8080/proxypool/resourcelist

把代理资源添加到计划任务:http://47.97.7.119:8080/proxypool/planlist

预览效果如下:

另外,还提供了一个接口,可以返回代理池中的Proxy

线上环境地址:http://47.97.7.119:8080/proxypool/proxys/{count}

类型:GET

参数说明:count<=0 count=”“>数据库里总数量, 也返回全部的代理数据

以上链接在本地运行时,请把具体的IP地址替换成localhost即可

Proxy-Pool 官网

https://github.com/fengzhizi715/ProxyPool

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐