如何解决Tabula中的“ EmptyDataError:没有要从文件解析的列”
我正在使用tabula-py
进行表提取,并尝试使用下表:
我的代码行是:
tabula_test = tabula.read_pdf(pdf_file,stream = True,pages = pages,multiple_tables = True,output_format = 'dataframe',pandas_options={"header": None,"skiprows" : skip_n})
当我放置skiprows = 7
时,因为是标题的行数。然后,我得到了EmptyDataError: No columns to parse from file
。否则,仅具有表头的输出即可。我认为问题在于“ Millones de”下方的空白,表格以某种方式标识了界定表头和表内容的行,就像表的末尾一样。
我已经使用了相同pdf的其他页面,并且效果很好,但是特别是在该页面中,表格崩溃了。读到错误后,我认为这是pandas_options
中的错误,因此我尝试使用delim_whitespace = True
,但是它不起作用。因此,我看到了Tabula文档,并说如果发生错误,只需转换gues = False
:
tabula_test = tabula.read_pdf(pdf_file,guess = False,"skiprows" : skip_n})
所以我做到了,错误消失了。但是我想知道这是否是克服错误的唯一方法。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。