如何解决蜘蛛反复寻找HTML
我想以example.com/
但是我不知道网址中的确切数字。
数字可能从0到10000或更多。
我写了一个小的python脚本来做到这一点,但是我觉得它很慢。
是否存在一些可以完成这项工作的工具?
for n in range(0,10000):
print("n",n)
for m in range(0,10000):
r = url+str(n)+str('-')+str(m)+str('.html')
html = requests.get(r,headers=headers)
try:
html.raise_for_status()
except requests.exceptions.HTTPError:
continue
#print(r+" doesn't exist")
print(r)
此代码也忽略了像0012这样的字符串的可能性,
解决方法
我认为您应该创建一个文件夹,其中包含要制作的东西的代码。 为了获得编号,您必须为文件夹命名该编号。我通常会在带有某些子页面的网站上这样做。但是,如果这就像一个带有带标签的帖子的社交媒体网站,我不知道该怎么办。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。