微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

requests_html:如何构建代码以包含子页面?

如何解决requests_html:如何构建代码以包含子页面?

如何构建我的代码以有时在运行循环中包含分页。我还没有使用 <div class="container"> <div class="block red">Text...</div> <div class="block green">Text...</div> <div class="block blue">Text...</div> <div class="block black">Text...</div> </div>。也许这就是答案。但是在找了几天之后我被困住了。我正在寻找高级别的答案。

这是我的基本结构:

def

当额外页面存在时,我通常如何构建我的代码以循环访问它们?然后返回包含循环以便它可以继续下一个城市?我不知道如何将额外的 url 注入现有循环。

解决方法

所以我想出了一个满足我需求的解决方案。它可能不是 Pythonic。 它允许我控制城市级别的搜索深度。 我添加了一个输入,用于在城市级别循环遍历子页面的数量(深度)(默认为 1)。 我添加了一个额外的 for 循环 for page in pages 并将我的主循环嵌套在其中。 当没有找到元素(EC:分页)时,主循环将中断并移动到下一个城市主页。

root_url = input("enter root URL here")
sub_pages = input("number of sub-pages to scrape")

for loop (from root_url retrieve links for states with providers)
    states_urls = 

for loop (from states_urls retrieve urls for cities with providers)
    city_list_urls = 

for loop (from city_list_urls  get.city)
    clink = get(city)
          
    for page in sub_pages [1:]:
        print("Retriving Listings From City Page: ",page)
        urll = session.get(city + "?pagenumber=" + str(page))
        cards = urll.get(containing element)

        for card in cards:
            main scraping code is here
            scrape and parse each "card"

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。