豁然高

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

使用python获取pptx文件的文本内容范例

get_text_from_pptx_pptm.py

复制代码
#!/bin/python
# -*- coding: utf-8 -*-

from pptx import Presentation
import sys
import base64

reload(sys)
sys.setdefaultencoding('utf8')

fileName = sys.argv[1]
# print(fileName)

def tripSpace( str ):
    return str.replace(" ", "").replace(" ", "").replace("\t", "").replace("\r\n", "").replace("\r", "").replace("\n", "").replace("\v", "")

prs = Presentation(fileName)

# ファイル概要(1スライド目のノート)
file_summary = ""
# ファイル注釈(2スライド目以降のノート)
file_note = ""
# ファイル内容(オブジェクトのテキスト全文)
file_content = ""
for i, sld in enumerate(prs.slides, start=1):
    for shp in sld.shapes:
        if shp.has_text_frame:
            file_content += shp.text
    if ( i == 1 ) :
        file_summary = sld.notes_slide.notes_text_frame.text
    else :
        file_note += tripSpace(sld.notes_slide.notes_text_frame.text)
    
print(base64.b64encode(file_summary))
print(tripSpace(file_note))
print(tripSpace(file_content))
复制代码

 

posted on   豁然高  阅读(439)  评论(0编辑  收藏  举报

编辑推荐:
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示