微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Python Selenium-我想下载嵌入在网页中的pdf

如何解决Python Selenium-我想下载嵌入在网页中的pdf

该网页具有登录凭据,登录后我想下载嵌入在网页中的PDF。我能够使用Selenium和

导航到屏幕
# find pdf url
pdf_url = driver.find_element_by_tag_name('iframe').get_attribute("src")
# load page with pdf
driver.get(pdf_url)
# download file
time.sleep(10)
#download = driver.find_element_by_xpath('//*[@id="download"]')
#download.click()

打印(“处理完成”)

enter image description here

直到这一步,它执行得很好,并将aspx页面与pdf一起显示。但是,当我下载时,我的pdf损坏了。当我将鼠标悬停在r.content上时,它具有登录页面信息而不是PDF。在下载pdf时需要帮助

这是Inspect源代码。我已经屏蔽了src Link

<embed id="plugin" type="application/x-google-chrome-pdf" src="https://docview.aspx?i=20198890&amp;docId=00000&amp;c=tttt&amp;s=0000000" stream-url="chrome-extension://mhjfbmdgcfjbbpaeojofohoefgiehjai/0000000" headers="Content-Length: 379726
Content-Type: application/pdf
Date: Fri,18 Sep 2020 06:21:24 GMT
Server: Microsoft-IIS/8.5
X-Powered-By: ASP.NET
" background-color="0xFF525659" top-toolbar-height="56" javascript="allow" full-frame="">

# List of PDFs already downloaded

REQUEST_URL = pdf_url

pdfName = "Test.pdf"
            
          

     downloadlocation = pdfdownload + pdfName

     with requests.Session() as session:
     r = session.get(REQUEST_URL)
     open(downloadlocation,'wb').write(r.content)

[Initial Output of ASPX Page that has pdf][1]
  [1]: https://i.stack.imgur.com/QFeSd.png

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。