爬网时避免出现漏洞/恶意域

如何解决爬网时避免出现漏洞/恶意域

我们正在尝试使用我们的Spider爬网（尊重robots.txt等）。我们遇到的问题是，由于受到恶意网站的攻击/以前被黑客入侵，我们不断在abuseat.org上受到报告的打击。例如：

在这种情况下，我们要做的就是：

curl -L -A "Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9; OurSiteName http://oursite.com) Gecko/2008052906 Firefox/3.0" --max-time 10 --connect-timeout 10 -LsI $_->{domain} | grep -i Location: | tail -1

这一切都可以运行-但是当我们从另一个域中访问相同的IP进行检查时，它最终使我们被报告为从服务器中运行了恶意软件（我们不是-因为这是服务器上唯一运行的脚本，并锁定）。

所以我的问题：

是否有一种方法可以阻止带有curl的恶意域，例如当您尝试访问钓鱼网站时，Chrome就会这样做？
或更妙的是-是否有最新的域名清单值得我们避免使用？昨天我找到了一些列表，并设法清除了约2亿个域中的5万多个域，但是我敢肯定那里肯定还有其他域可能再次导致我们遇到问题：/