我正在开发一个网络抓取程序,但我遇到了一个使用scrapy生成
javascript内容的问题.我知道scrapy不是用来做这种类型的刮擦,但我一直在尝试使用
scrapyjs或
splash来完成我需要的东西.
但是,我不能让这两个模块中的任何一个与scrapy一起正常工作.我的问题是,如果有人有一个最小的例子,他们可以显示使用scrapyjs或splash来呈现javascript页面?
编辑:
我的平台是ubuntu,我使用python.对于scrapyjs我只是把源放在scrapy项目的最上面的目录中,我还没有找到关于如何使用splash的真正指南.我之所以要问泼溅的原因是因为它似乎是一个更强大的javascript渲染模块,并且在与scrapjs相同的对话中被提及了很多.
解决方法
我相信你所要做的就是实现
process_links in your Spider:
def proxy_url(url): return "http://localhost:8050/render.html?url=%s&timeout=15&wait=1" % url def process_links(self,links): for link in links: link.url = proxy_url(link.url) return links
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。