微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

网站如何检测scraper?

如何解决网站如何检测scraper?

在 python 中使用 Requests-html 抓取网站时,我为每抓取 60 个项目轮换 Ip 和 User-agent,但尽管如此,我还是被阻止了,即使我现在更改 Ip,它也可以抓取 只有一项并被阻止。即使我正在更改 ip,网站如何检测到我正在抓取。例如,假设它检测到我一次又一次地访问同一个链接,因此它限制了对该链接的访问,但这不会阻止真正的用户。另外,我怎么确定我是同一个人。我对网络了解不多。请解释发生了什么以及如何解决这个问题。 这是我的代码的一部分:


    
        if count2%60==0:
            count2=count2+1
            sleep(random.randint(1,5))
        try:
            headers={'user-agent':useragent[count2],'Referer':'http://www.google.com'}
            r = s.get(url,proxies={'http':f'http://{proxy_dat[count2]}'},headers=headers)
            r.html.render(timeout=30)
            price = r.html.xpath('//*[(@id = "priceblock_ourprice")]',first=True)
            if price is not None:       
                print(price.text)
                prices.append(price.text)   
            else:
                prices.append("Unavailable")
        except:
            count2+=1
            continue        

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。