微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何使用 PDFPlumber 准确提取表格?

如何解决如何使用 PDFPlumber 准确提取表格?

我是自学成才的,目前正在从事一个个人项目。 我要抓取的 pdf 是 here

Table I'm trying to extract

我试图提取的表格附在上面。 我尝试使用extract_table() 提取代码,但提取的信息不是我所期望的。

from PyPDF2 import PdfFileReader
from pathlib import Path
import pdfplumber
import requests
URL_NTU = 'https://www3.ntu.edu.sg/oad2/website_files/IGP/NTU_IGP.pdf'
filename = Path('NTU_IGP.pdf')
response = requests.get(URL_NTU)
filename.write_bytes(response.content)

pdf_path='NTU_IGP.pdf'
pdf = PdfFileReader(str(pdf_path))

with pdfplumber.open('NTU_IGP.pdf') as pdf:
    second_page = pdf.pages[1]
    third_page = pdf.pages[2]
    ntu_course_list = []
    print (second_page.extract_tables())

我收到的输出

[[['NTU Programmes',None,'','Representative Grade',''],[None,'Profile',None],'3H2/1H1','10th','90th','percentile',['','Lee Kong Chian School of Medicine','']],[['','College of Engineering','College of Science','']]]

但我期望像 [['Medicine*','AAA/A','AAA/A'],['Renaissance Engineering*,'AAA/A']...]

任何帮助或建议将不胜感激。谢谢。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。