随笔 - 633,  文章 - 0,  评论 - 13,  阅读 - 48万
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
复制代码
# encoding=utf8
#-*-coding:utf-8 -*-

#pip install  pypdf2 -i https://pypi.tuna.tsinghua.edu.cn/simple

import PyPDF2
from io import StringIO


content_all_list = []

# 打开PDF文件并创建一个PyPDF2对象
with open('Scrum-Guide-Chinese-Simplified.pdf', 'rb') as fp:
    pdf_reader = PyPDF2.PdfReader(fp)



    #总页数
    page_nums = len(pdf_reader.pages)

    for i in range(0,page_nums):
        # 获取PDF文档的第一页
        page = pdf_reader.pages[i]

        # 解析PDF页面并提取文本内容
        text_content = page.extract_text()

        print(text_content)
        content_all_list.append(text_content)




print(content_all_list)

# 将文本内容写入到一个新的txt文件中
#print()方法在Win7的默认编码是gbk,它在打印时,并不是所有的字符都支持的,所以此处换成 gb18030
with open('Scrum-Guide-Chinese-Simplified.txt', 'a' ,encoding='gb18030') as txt_file:
    for one in content_all_list:
        txt_file.write(one)
复制代码

 

posted on   大话人生  阅读(289)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
点击右上角即可分享
微信分享提示