PDF转成txt

#Author：Alex.Zhang
import pyocr

import importlib

import sys

import time

importlib.reload( sys )

time1 = time.time()

# print("初始时间为：",time1)


import os.path

from pdfminer.pdfparser import PDFParser , PDFDocument

from pdfminer.pdfinterp import PDFResourceManager , PDFPageInterpreter

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LTTextBoxHorizontal , LAParams

from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

text_path = r'parameters in cryo-EM.pdf'


# text_path = r'photo-words.pdf'


def parse():
    '''解析PDF文本，并保存到TXT文件中'''

    fp = open( text_path , 'rb' )

    # 用文件对象创建一个PDF文档分析器

    parser = PDFParser( fp )

    # 创建一个PDF文档

    doc = PDFDocument()

    # 连接分析器，与文档对象

    parser.set_document( doc )

    doc.set_parser( parser )

    # 提供初始化密码，如果没有密码，就创建一个空的字符串

    doc.initialize()

    # 检测文档是否提供txt转换，不提供就忽略

    if not doc.is_extractable:

        raise PDFTextExtractionNotAllowed

    else:

        # 创建PDF，资源管理器，来共享资源

        rsrcmgr = PDFResourceManager()

        # 创建一个PDF设备对象

        laparams = LAParams()

        device = PDFPageAggregator( rsrcmgr , laparams=laparams )

        # 创建一个PDF解释其对象

        interpreter = PDFPageInterpreter( rsrcmgr , device )

        # 循环遍历列表，每次处理一个page内容

        # doc.get_pages() 获取page列表

        for page in doc.get_pages():

            interpreter.process_page( page )

            # 接受该页面的LTPage对象

            layout = device.get_result()

            # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象

            # 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等

            # 想要获取文本就获得对象的text属性，

            for x in layout:

                if (isinstance( x , LTTextBoxHorizontal )):
                    with open( r'2.txt' , 'a' ,encoding='utf-8') as f:
                        results = x.get_text()

                        print( results )

                        f.write( results + "\n" )


if __name__ == '__main__':
    parse()

    time2 = time.time()

    print( "总共消耗时间为:" , time2 - time1 )
posted @ 2019-10-04 12:14 Raymone1125 阅读(492) 评论(0) 收藏举报
刷新页面返回顶部
PDF转成txt

公告