微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

爬网时避免出现漏洞/恶意域

如何解决爬网时避免出现漏洞/恶意域

我们正在尝试使用我们的Spider爬网(尊重robots.txt等)。我们遇到的问题是,由于受到恶意网站的攻击/以前被黑客入侵,我们不断在abuseat.org上受到报告的打击。例如:

enter image description here

在这种情况下,我们要做的就是:

curl -L -A "Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9; OurSiteName http://oursite.com) Gecko/2008052906 Firefox/3.0" --max-time 10 --connect-timeout 10 -LsI $_->{domain} | grep -i Location: | tail -1

这一切都可以运行-但是当我们从另一个域中访问相同的IP进行检查时,它最终使我们被报告为从服务器中运行了恶意软件(我们不是-因为这是服务器上唯一运行的脚本,并锁定)。

所以我的问题:

  1. 是否有一种方法可以阻止带有curl的恶意域,例如当您尝试访问钓鱼网站时,Chrome就会这样做?
  2. 或更妙的是-是否有最新的域名清单值得我们避免使用?昨天我找到了一些列表,并设法清除了约2亿个域中的5万多个域,但是我敢肯定那里肯定还有其他域可能再次导致我们遇到问题:/

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。