微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

python -docx从word docx提取表

如何解决python -docx从word docx提取表

您的代码对我来说很好。如何将其插入数据框?

import pandas as pd
from docx.api import Document

document = Document('test_word.docx')
table = document.tables[0]

data = []

keys = None
for i, row in enumerate(table.rows):
    text = (cell.text for cell in row.cells)

    if i == 0:
        keys = tuple(text)
        continue
    row_data = dict(zip(keys, text))
    data.append(row_data)
    print (data)

df = pd.DataFrame(data)

如何在该表格中显示特定的行和列?我们可以使用iloc根据索引提取行和列

# iloc[row,columns] 
df.iloc[0,:].tolist() # [5,6,7,8]  - row index 0
df.iloc[:,0].tolist() # [5,9,13,17]  - column index 0
df.iloc[0,0] # 5  - cell(0,0)
df.iloc[1:,2].tolist() # [11,15,19]  - column index 2, but skip first row

等等…

但是,如果您的列有名称(在本例中为数字),则可以这样操作:

#df["name"].tolist() 
df[1].tolist() # [5,6,7,8] - column with name 1
print(df)

打印,这就是示例文档中表格的外观。

    1   2   3   4
0   5   6   7   8
1   9   10  11  12
2   13  14  15  16
3   17  18  19  20

解决方法

我知道这是一个重复的问题,但是这些答案对我不起作用。我有一个包含一个表的word文件,现在我希望该表作为python程序的输出。我正在使用python
3.6并且已经安装了python -docx。这是我的数据提取代码

from docx.api import Document

document = Document('test_word.docx')
table = document.tables[0]

data = []

keys = None
for i,row in enumerate(table.rows):
    text = (cell.text for cell in row.cells)

    if i == 0:
        keys = tuple(text)
        continue
    row_data = dict(zip(keys,text))
    data.append(row_data)
    print (data)

我想要的结果是docx文件中的内容。提前致谢

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。