Python 处理 word 文档(一):Document 、Paragraph 和 Run 对象的
简介:
.docx 文件结构在 python-docx 中的三种类型:
Document 对象表示整个文档;Paragrapha 对象标识段落(在输入文档,每一次回车产生新段落);Run 对象标识相同样式的文本延续。
Document 对象包含一个 Paragrapha 对象的列表,Paragraph 对象包含一个 Run 对象的列表。
文档内容:
0、准备工作
0.1 安装包
pip install python-docx
0.2 导入相关包
import os
import re
import docx
0.3 工作路径设置
work_path = 'E:\\pyspace\\wdocuments'
os.chdir(work_path)
1、读取 word 文档
doc = docx.Document('python 演示文档.docx') # Document 对象
len(doc.paragraphs) # Paragraph 对象列表的长度
2、 paragraph 对象
for i, para in enumerate(doc.paragraphs):
print(f'No.{i+1}\n', para.text, sep='')
3、run 对象
for i, para in enumerate(doc.paragraphs):
for j, run in enumerate(para.runs):
print(f'Para.{i+1} Run{j+i}: ', run.text, sep='')
非学无以广才,非志无以成学。