无法使用scrapy响应xpath捕获ul中的所有li元素

如何解决无法使用scrapy响应xpath捕获ul中的所有li元素

我正在尝试使用 scrapy 抓取 this website 上可用的文章。我正在尝试使用以下代码。

class Langham_Crawler(scrapy.Spider):

    name = "Langham Hotels"

    def __init__(self,target_date,scraped_data_list,**kwargs):
        self.target_date = parser.parse(target_date).date()
        self.start_urls = ['https://www.langhamhospitalitygroup.com/en/media/latest-news/']
        self.scraped_data_list = scraped_data_list
        super().__init__(**kwargs)

    def parse(self,response):
        next_page_flag = True

        articles= response.xpath('.//*[@id="js-media-article-container"]/li/div')

但它返回一个空列表。为什么我不能在scrapy中使用xpaths捕获li元素。

解决方法

那是因为网站上的文字没有出现在源头上。在检查 > 网络中检查 XHR 请求后，我为您的网站找到了此 XML：

https://www.langhamhospitalitygroup.com/api/en/releases/36897/1?format=json&format=json

您可以使用 BeautifulSoup Tutorial

轻松抓取此 XML