如何解决requests_html:如何构建代码以包含子页面?
如何构建我的代码以有时在运行循环中包含分页。我还没有使用 <div class="container">
<div class="block red">Text...</div>
<div class="block green">Text...</div>
<div class="block blue">Text...</div>
<div class="block black">Text...</div>
</div>
。也许这就是答案。但是在找了几天之后我被困住了。我正在寻找高级别的答案。
这是我的基本结构:
def
当额外页面存在时,我通常如何构建我的代码以循环访问它们?然后返回包含循环以便它可以继续下一个城市?我不知道如何将额外的 url 注入现有循环。
解决方法
所以我想出了一个满足我需求的解决方案。它可能不是 Pythonic。 它允许我控制城市级别的搜索深度。 我添加了一个输入,用于在城市级别循环遍历子页面的数量(深度)(默认为 1)。 我添加了一个额外的 for 循环 for page in pages 并将我的主循环嵌套在其中。 当没有找到元素(EC:分页)时,主循环将中断并移动到下一个城市主页。
root_url = input("enter root URL here")
sub_pages = input("number of sub-pages to scrape")
for loop (from root_url retrieve links for states with providers)
states_urls =
for loop (from states_urls retrieve urls for cities with providers)
city_list_urls =
for loop (from city_list_urls get.city)
clink = get(city)
for page in sub_pages [1:]:
print("Retriving Listings From City Page: ",page)
urll = session.get(city + "?pagenumber=" + str(page))
cards = urll.get(containing element)
for card in cards:
main scraping code is here
scrape and parse each "card"
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。