如何解决Scrapy Selenium 抓取 JS 加载的网页
现在我要练习抓取一个加载了 javascript 的网站。 我用chrome检查元素,可以找到对应的代码,但是查看页面源码时,却什么也找不到。
具体来说,我正在抓取 https://ifttt.com/augusthome,我希望在此网页中获取小程序 URL。
我现在正在做的是使用如下所示的scrapy和selenium。
def parse(self,response):
print("procesing:"+response.url)
# print(response.body)
# blog_urls=response.xpath("//li[@class='my-web-applet-card web-applet-card'][4]").extract()
# print(blog_urls)
self.browser.get(response.url)
tt=self.browser.find_element_by_xpath("//li[@class='my-web-applet-card web-applet-card'][4]")
print(tt)
def process_response(self,request,response,spider):
# Called with the response returned from the downloader.
# Must either;
# - return a Response object
# - return a Request object
# - or raise IgnoreRequest
spider.browser.get(url=request.url)
time.sleep(10)
# row_response = spider.browser.page_source
row_response = spider.browser.execute_script("return document.getElementsByTagName('html')")
print(row_response)
return HtmlResponse(url=spider.browser.current_url,body=row_response,encoding="utf8",request=request)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。