微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

无法使用scrapy响应xpath捕获ul中的所有li元素

如何解决无法使用scrapy响应xpath捕获ul中的所有li元素

我正在尝试使用 scrapy 抓取 this website 上可用的文章。我正在尝试使用以下代码

class Langham_Crawler(scrapy.Spider):

    name = "Langham Hotels"

    def __init__(self,target_date,scraped_data_list,**kwargs):
        self.target_date = parser.parse(target_date).date()
        self.start_urls = ['https://www.langhamhospitalitygroup.com/en/media/latest-news/']
        self.scraped_data_list = scraped_data_list
        super().__init__(**kwargs)

    def parse(self,response):
        next_page_flag = True

        articles= response.xpath('.//*[@id="js-media-article-container"]/li/div')

但它返回一个空列表。为什么我不能在scrapy中使用xpaths捕获li元素。

Please see the html code of this

解决方法

那是因为网站上的文字没有出现在源头上。在检查 > 网络中检查 XHR 请求后,我为您的网站找到了此 XML:

https://www.langhamhospitalitygroup.com/api/en/releases/36897/1?format=json&format=json

您可以使用 BeautifulSoup Tutorial

轻松抓取此 XML

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。