使用 requests_html - 编程之家

如何解决使用 requests_html

所以我正在尝试构建一个抓取工具来抓取网站上的所有汽车广告。我已经成功地创建了一个带有每个广告 url 的 csv，我现在正在尝试抓取每辆车的详细信息。我最初使用 urllib 和 bs4，但我认为由于 javascript 用于填充汽车详细信息，bs4 无法解析它们。我曾尝试使用 requests_html 但它似乎没有找到我要求它的元素。 Here 是我想要抓取的示例页面。我正在尝试获取品牌、型号、里程和发动机尺寸等信息。这是我迄今为止尝试过的代码。

from requests_html import HTMLSession
from bs4 import BeautifulSoup as soup
session = HTMLSession()

page = session.get('https://www.donedeal.ie/cars-for-sale/131-citroen-c4-picasso-platinum/28022543')

container = page.html.find('.cad-info-container',first=False)