一键抓出PPT中的所有文字【保存为txt,docx】
#提取所有文本字符
from pptx import Presentation
data = []
prs = Presentation('data\课件.pptx')
for slide in prs.slides: #遍历每页PPT
for shape in slide.shapes: #遍历PPT中的每个形状
if shape.has_text_frame: #判断该是否包含文本,保证有文本才提取
for paragraph in shape.text_frame.paragraphs: #按文本框中的段落提取
data.append(paragraph.text) #提取一个段落的文本,就存到列表data中
#写入文本文件
TxtFile = open('data\课件.txt', 'w',encoding='utf-8')
for i in data:
TxtFile.write(i+'\n') #写入并换行,以保证正确分段
TxtFile.close() #保存
#写入word文件
import docx
doc=docx.Document()#创建一个word文件对象
for i in data:
doc.add_paragraph(i) #增加一个段落,并将列表中的一个字符串写入word文件
doc.save('data\课件.docx')#保存
print("已转换完成")
分类:
Python
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· 用 C# 插值字符串处理器写一个 sscanf
· Java 中堆内存和栈内存上的数据分布和特点
· 开发中对象命名的一点思考
· .NET Core内存结构体系(Windows环境)底层原理浅谈
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· 本地部署DeepSeek后,没有好看的交互界面怎么行!
· DeepSeek 解答了困扰我五年的技术问题。时代确实变了!
· 趁着过年的时候手搓了一个低代码框架
· 推荐一个DeepSeek 大模型的免费 API 项目!兼容OpenAI接口!