微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用 requests_html

如何解决使用 requests_html

所以我正在尝试构建一个抓取工具来抓取网站上的所有汽车广告。我已经成功地创建了一个带有每个广告 url 的 csv,我现在正在尝试抓取每辆车的详细信息。我最初使用 urllib 和 bs4,但我认为由于 javascript 用于填充汽车详细信息,bs4 无法解析它们。我曾尝试使用 requests_html 但它似乎没有找到我要求它的元素。 Here 是我想要抓取的示例页面。我正在尝试获取品牌、型号、里程和发动机尺寸等信息。这是我迄今为止尝试过的代码

from requests_html import HTMLSession
from bs4 import BeautifulSoup as soup
session = HTMLSession()

page = session.get('https://www.donedeal.ie/cars-for-sale/131-citroen-c4-picasso-platinum/28022543')

container = page.html.find('.cad-info-container',first=False)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。