如何解决无法使用scrapy响应xpath捕获ul中的所有li元素
我正在尝试使用 scrapy 抓取 this website 上可用的文章。我正在尝试使用以下代码。
class Langham_Crawler(scrapy.Spider):
name = "Langham Hotels"
def __init__(self,target_date,scraped_data_list,**kwargs):
self.target_date = parser.parse(target_date).date()
self.start_urls = ['https://www.langhamhospitalitygroup.com/en/media/latest-news/']
self.scraped_data_list = scraped_data_list
super().__init__(**kwargs)
def parse(self,response):
next_page_flag = True
articles= response.xpath('.//*[@id="js-media-article-container"]/li/div')
但它返回一个空列表。为什么我不能在scrapy中使用xpaths捕获li元素。
解决方法
那是因为网站上的文字没有出现在源头上。在检查 > 网络中检查 XHR 请求后,我为您的网站找到了此 XML:
https://www.langhamhospitalitygroup.com/api/en/releases/36897/1?format=json&format=json
您可以使用 BeautifulSoup Tutorial
轻松抓取此 XML版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。