微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

页面偏移量值永不结束时如何进行网页抓取

如何解决页面偏移量值永不结束时如何进行网页抓取

我正在尝试使用BeautifulSoup从https://sofifa.com中抓取玩家数据。每个页面显示60位玩家,因此我使用偏移查询参数(例如https://sofifa.com/players?offset=60显示第二页)来访问所有玩家的信息。

我注意到的一件事是偏移量值永远不会结束(即,无论我提供的偏移量值多大,它总是显示一页)。具体来说,我注意到对于offset> 20000左右,它始终显示第一页(基本上在耗尽所有播放器之后,它会翻转到第一页,并始终为所有后续更高的offset值显示页面)。尝试使用https://sofifa.com/players?offset=20000000来了解我的意思。

我想知道是否可以通过编程方式找出最后一个“有效”偏移值;除此之外,我肯定会回到第一页。这将帮助我确定何时到达数据集的末尾。

目前这是我的抓取方式

for offset in range(0,20000,60):
  try:
    print("Processing page at offset " + str(offset))
    sofifa_url = "https://sofifa.com/players?offset=" + str(offset)
    # start scraping the page
    :
    :
  except Exception as e:
    print("Exception occured: " + str(e))
    continue

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。