Python 读取PDF文件为文本字符并转换为音频
设计思路:首先通过PyPDF2非标准库提供的接口函数将PDF文件中的文本提取出来,然后,再使用pyttsx3非标准库将文本转换为音频文件。
使用pip的方式安装两个非标准库PyPDF2、pyttsx3。
pip install PyPDF2 -i https://pypi.tuna.tsinghua.edu.cn/simple/
pip install pyttsx3 -i https://pypi.tuna.tsinghua.edu.cn/simple/
将这两个需要使用到的非标准库导入到当前代码块中。
import pyttsx3 as tsx
import PyPDF2 as pdf
编写PDF文件读取函数并且返回text文本字符串。
def read_pdf_to_txt(pdf_file):
'''
读取PDF文件返回text文本
:param pdf_file: PDF文件路径
:return:
'''
reader = pdf.PdfFileReader(open(pdf_file, 'rb'))
texts = ''
for page_num in range(reader.numPages):
text = reader.getPage(page_num).extractText()
text = text.strip().replace('\n', ' ')
texts = texts + text
return texts
def to_video(text):
'''
文本转换为音频函数
:param text: 文本字符串
:return:
'''
sp = tsx.init()
sp.save_to_file(text, './vi.mp3')
sp.runAndWait()
sp.stop()
调用to_video函数完成音频文件的转换。
to_video(text=read_pdf_to_txt('./vi.pdf'))
【往期精彩】
python 获取最新房价信息-以北京房价为例
办公自动化:Image图片转换成PDF文档存储...
python做一个微型美颜图片处理器,十行代码即可完成...
用python做一个文本翻译器,自动将中文翻译成英文,超方便的!
小王,给这2000个客户发一下节日祝福的邮件...
python 一行命令开启网络间的文件共享...
PyQt5 批量删除 Excel 重复数据,多个文件、自定义重复项一键删除...
再见XShell,这款国人开源的终端命令行工具更nice!
python 表情包下载器,轻松下载上万个表情包、斗图不用愁...
Python 自动清理电脑垃圾文件,一键启动即可...
有了jmespath,处理python中的json数据就变成了一种享受...
解锁一个新技能,如何在Python代码中使用表情包...
欢迎关注作者公众号【Python 集中营】,专注于后端编程,每天更新技术干货,不定时分享各类资料!
标签:
python
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现