如何在 Windows 上使用 BeautifulSoup 创建 Python 脚本以下载 WIkimedia Commons 文件夹中每张图片的最高分辨率？

如何解决如何在 Windows 上使用 BeautifulSoup 创建 Python 脚本以下载 WIkimedia Commons 文件夹中每张图片的最高分辨率？

所以，我是 Gustave Doré 的忠实粉丝，我想从整理整齐的 Wikimedia Commons 文件夹中下载他的所有版画。

因此，给定一个 Wikimedia Commons 文件夹，我需要以最高分辨率下载其中的所有图片。

我开始写一些东西，但我不是那么好，所以它只是一个模板：

import os,requests,bs4

url = 'URL OF THE WIKIMEDIA COMMONS FOLDER'

os.makedirs('NAME OF THE FOLDER',exist_ok=True)
for n in range(NUMBER OF PICTURES IN THE PAGE - 1):
    print('I am downloading page number %s...' %(n+1))
    res = requests.get(url)
    res.raise_for_status()

    soup = bs4.BeautifulSoup(res.text,'html.parser')

    #STUFF I STILL NEED TO ADD
    
print('Done')

例如，我会将其作为文件夹的 URL 提供：

https://commons.wikimedia.org/wiki/Category:Crusades_by_Gustave_Dor%C3%A9

然后我想点击每个链接并转到图片页面，如下所示：

https://commons.wikimedia.org/wiki/File:Astonishment_of_the_Crusaders_at_the_Wealth_of_the_East.jpg

然后下载“原始文件”点击图片下方标有“原始文件”的链接。除了有时图片没有更高的分辨率，比如在这种情况下：

https://commons.wikimedia.org/wiki/File:Andel_krizaci.jpg

它只需要点击图片下方的链接即可下载。

我完全卡住了，提前感谢您的帮助！

如果图片在保存时在其页面中注明了名称，则加分

（例如，在第二个链接中，图片应保存为“东方财富的十字军惊奇.jpg”）

解决方法

嘿，古斯塔夫·多雷 (Gustave Doré) 的忠实粉丝，这里有一种方法可以做到

r = requests.get('https://commons.wikimedia.org/wiki/Category:Crusades_by_Gustave_Dor%C3%A9')
soup = BeautifulSoup(r.text,'html.parser')
links = [i.find('img').get('src') for i in soup.find_all('a',class_='image')]
links = ['/'.join(i.split('/')[:-1]).replace('/thumb','') for i in links]
for l in links:
    im = requests.get(l)
    with open(l.split('/')[-1],'wb') as f:
        f.write(im.content)

如何在 Windows 上使用 BeautifulSoup 创建 Python 脚本以下载 WIkimedia Commons 文件夹中每张图片的最高分辨率？

如何解决如何在 Windows 上使用 BeautifulSoup 创建 Python 脚本以下载 WIkimedia Commons 文件夹中每张图片的最高分辨率？

解决方法

相关推荐