豁然高

导航

使用python获取pptx文件的文本内容范例

get_text_from_pptx_pptm.py

#!/bin/python
# -*- coding: utf-8 -*-

from pptx import Presentation
import sys
import base64

reload(sys)
sys.setdefaultencoding('utf8')

fileName = sys.argv[1]
# print(fileName)

def tripSpace( str ):
    return str.replace(" ", "").replace(" ", "").replace("\t", "").replace("\r\n", "").replace("\r", "").replace("\n", "").replace("\v", "")

prs = Presentation(fileName)

# ファイル概要(1スライド目のノート)
file_summary = ""
# ファイル注釈(2スライド目以降のノート)
file_note = ""
# ファイル内容(オブジェクトのテキスト全文)
file_content = ""
for i, sld in enumerate(prs.slides, start=1):
    for shp in sld.shapes:
        if shp.has_text_frame:
            file_content += shp.text
    if ( i == 1 ) :
        file_summary = sld.notes_slide.notes_text_frame.text
    else :
        file_note += tripSpace(sld.notes_slide.notes_text_frame.text)
    
print(base64.b64encode(file_summary))
print(tripSpace(file_note))
print(tripSpace(file_content))

 

posted on 2020-11-26 15:22  豁然高  阅读(437)  评论(0编辑  收藏  举报