微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

无法使用 headless chrome 或 phantomjs 下载此网站

如何解决无法使用 headless chrome 或 phantomjs 下载此网站

我正在尝试通过网络抓取来监控我父母的疫苗网站,这样我就不用花几个小时刷新了。

这里是网站

https://apps6.health.ny.gov/doh2/applinks/cdmspr/2/counties?OpID=50503446

我尝试过使用相对简单的 vanilla 脚本(因为我不喜欢 webdev)和无头 chrome(主要是 CLI 和一些 puppeteer)和 phantomjs,但似乎没有任何工作(我得到空白页面或说 javascript 的东西考虑到那些无头浏览器支持/渲染 javascript,这有点奇怪)。

到目前为止,我觉得上面的链接是经过精心设计的(即,“每个对 url 的无 cookie 请求都在名为 bobcmn 的 javascript 变量中提供一个加密的 cookie,然后他们继续使用 javascript 解密该 cookie并将结果添加到包含解密 cookie 的 url 的第二次调用中")

有没有办法以无头的方式拉这个,还是我必须只使用虚拟机和实际的有头浏览器和屏幕脚本? (理想情况下,我正在寻找网站的 html/dom,而不是图片,以便我可以进行单词搜索

谢谢各位

仅供参考 - 我已经尝试过 curl/wget,但不出所料,这些在这种情况下没有帮助

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。