使用python获取pptx文件的文本内容范例
get_text_from_pptx_pptm.py
#!/bin/python # -*- coding: utf-8 -*- from pptx import Presentation import sys import base64 reload(sys) sys.setdefaultencoding('utf8') fileName = sys.argv[1] # print(fileName) def tripSpace( str ): return str.replace(" ", "").replace(" ", "").replace("\t", "").replace("\r\n", "").replace("\r", "").replace("\n", "").replace("\v", "") prs = Presentation(fileName) # ファイル概要(1スライド目のノート) file_summary = "" # ファイル注釈(2スライド目以降のノート) file_note = "" # ファイル内容(オブジェクトのテキスト全文) file_content = "" for i, sld in enumerate(prs.slides, start=1): for shp in sld.shapes: if shp.has_text_frame: file_content += shp.text if ( i == 1 ) : file_summary = sld.notes_slide.notes_text_frame.text else : file_note += tripSpace(sld.notes_slide.notes_text_frame.text) print(base64.b64encode(file_summary)) print(tripSpace(file_note)) print(tripSpace(file_content))
分类:
python
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)