如何解决Tabula-py 没有正确提取行
使用 Tabula-py 提取 pdf 表,它提取所有行但没有正确拆分。以下面的示例pdf进行提取。
import tabula
import json
import pandas as pd
path = "/GST_OCR input Pdfs/gst3.pdf"
col2str = {'dtype': str}
kwargs = {
"multiple_tables":True,'pandas_options': col2str,'lattice':False,'guess':False
}
csv_data = tabula.read_pdf(path,pages="all",**kwargs)
# with pd.ExcelWriter(csv_data[1].iloc[0,1]+".xls",engine='xlsxwriter') as writer:
# for i in range(len(csv_data)):
# csv_data[i].to_excel(writer,sheet_name=f'Sheet {i+1}')
csv_data[5]
帮我解决这个问题。 提前致谢
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。