python读取word文件

word文件分为两种类型 一种是 以doc结尾的 一种是以 docx结尾的

一 以docx结尾的word文件#

首先是安装模块

pip install python-docx

使用

from docx import Document
path = r"E:\docx.docx"
document = Document(path)
for paragraph in document.paragraphs:
    print(paragraph.text)

二 以doc结尾的文件#

首先是安装模块

python -m pip install pypiwin32
复制代码
import win32com.client as wc


def doSaveAas():
    word = wc.Dispatch('Word.Application')
    doc = word.Documents.Open(r'E:\s25\torn_test\doc.doc')  # 目标路径下的文件
    doc.SaveAs(r'E:\s25\torn_test\a\b.docx', 12, False, "", True, "", False, False, False, False)  # 转化后路径下的文件
    doc.Close()
    word.Quit()
doSaveAas()


# 先转换成 docx文件 再进行上面第一步的读取
复制代码

 

posted @   流年中渲染了微笑  阅读(9732)  评论(0编辑  收藏  举报
编辑推荐:
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!
历史上的今天:
2018-04-08 第九篇 AJAX
2018-04-08 第八篇Django分页
点击右上角即可分享
微信分享提示
CONTENTS