from bs4 import BeautifulSoup
def exact_p_tag(path,f):
xhtml_file = open(path, 'r', encoding='utf-8')
xhtml_handle = xhtml_file.read()
soup = BeautifulSoup(xhtml_handle, 'lxml')
title = soup.find_all("title")
# print(title)
p_list = soup.find_all('p')
for p in p_list:
f.write(p.text+'\n')
xhtml_file.close()
import os
os.chdir('C:/Users/tellw/Downloads/test')
from pathlib import Path
xhtml_file_paths=list(Path('EPUB/xhtml').glob('*.xhtml'))
f=open('C:/Users/tellw/test/test.txt','w',encoding='utf8')
for xfp in xhtml_file_paths:
exact_p_tag(xfp,f)
f.close()
使用 Python 提取 epub 中的文本 https://fanlumaster.github.io/2021/07/08/使用-Python-提取-epub-中的文本/
创建于2409071243,修改于2409071243
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理