微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

php – 当人们卷曲我的网站时,如何返回垃圾文本?

我不是人们使用脚本轻松获取我网站的所有内容.现在,如果我使用PHP curl,我可以获取我网站中的所有文本和数据.但我看到一些网站只返回垃圾文本.例如,这个中文网站:’www.jjwxc.net/onebook.PHP?novelid=6971\u0026amp;chapterid=6’如果我使用下面的PHP

    $ch = curl_init();

    curl_setopt($ch, CURLOPT_URL, $url);

    $headers = array();
    $headers[] = "Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png, image/gif, image/x-bitmap, image/jpeg, image/pjpeg, *;q=0.5";
    $headers[] = "Cache-Control: max-age=0";
    $headers[] = "Connection: keep-alive";
    $headers[] = "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7";
    $headers[] = "Accept-Language: en-us,en;q=0.5";
    $headers[] = "Pragma: ";
    $headers[] = 'Content-type: application/x-www-form-urlencoded;charset=UTF-8';

    curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);

    curl_setopt($ch, CURLOPT_ENCODING, '');  
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);        
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);

    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 4);
    curl_setopt($ch, CURLOPT_TIMEOUT, 8);

    curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US; rv:1.9.0.12) Gecko/2009070611 Firefox/3.0.12");

    $data = curl_exec($ch);
    curl_close($ch);

    echo $data;

我只能得到垃圾文本.但是即使禁用了JavaScript也使用浏览器,我可以查看所有正确的字符.知道他们是怎么做到的吗?谢谢!

解决方法:

站点使用gzip传输编码.浏览器透明地解压缩,而在使用curl等低级工具时必须手动解压缩.

最终没有办法区分curl和常规浏览器.两者都只是执行HTTP请求,并且您的服务器应答HTTP请求.您可以查看用户代理HTTP标头,该标头将不存在或在curl的情况下说“curl”;但是,添加常规浏览器添加的任何和所有标头都是微不足道的,这使得源自curl的HTTP请求与浏览器发起的HTTP请求完全无法区分.

你想要的是根本不可能的.如果信息是公开的,那就是公开的.你无法决定谁能看到它,谁不能看到它.

减慢大量抓取速度的唯一方法是通过IP地址跟踪所有请求并限制IP,这些IP似乎会产生异常多的请求.但即便如此,一小部分代理服务器也可以轻松解决这个问题.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐