微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

蜘蛛反复寻找HTML

如何解决蜘蛛反复寻找HTML

我想以example.com/- .html

的形式访问网站

但是我不知道网址中的确切数字。

数字可能从0到10000或更多。

我写了一个小的python脚本来做到这一点,但是我觉得它很慢。

是否存在一些可以完成这项工作的工具?

for n in range(0,10000):
  print("n",n)
  for m in range(0,10000):     
      r = url+str(n)+str('-')+str(m)+str('.html')
      
      html = requests.get(r,headers=headers)
      try:
        html.raise_for_status()
      except requests.exceptions.HTTPError:
        continue
        #print(r+" doesn't exist")
      print(r)

代码也忽略了像0012这样的字符串的可能性,

解决方法

我认为您应该创建一个文件夹,其中包含要制作的东西的代码。 为了获得编号,您必须为文件夹命名该编号。我通常会在带有某些子页面的网站上这样做。但是,如果这就像一个带有带标签的帖子的社交媒体网站,我不知道该怎么办。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。