word转epub(目录级别问题)

使用工具calibre。网页在线转换容易出错,在线转换:小熊、word转epub。

word转epub最大的问题是目录不能识别出来,最妥当的是用calibre通过h1、h2、h3标签去筛目录。

一、下载工具calibre

 二、调整word格式

打开视图——导航窗格,调整目录级别

word另存为htm,查看目录级别的标签是否正确

 

 如果全是p标签,没有h1、h2、h3的分类。打开htm,选中二级目录文档,点击选择—选择格式相似的文本

编辑二级目录,右键修改样式,修改成想要的字体格式

然后回到文档内容, 给所有相似文本换二级目录,这里就将h标签修改好了,跳到到第三步生成epub继续阅读。想看其他目录级别配置方法的继续往下阅读。

calibre支持re正则,通过正则去匹配word的htm标签内容,用python对htm的二级目录筛选,发现htm会把一句话拆到多个标签里去,标签格式乱,不能保证能匹配到所有二级目录内容。建议htm匹配复杂的修改word。

import re
fh = open('a.txt','r',encoding='utf-8')
data = fh.read()
#data = '咋啊啊'

regStr = "(第[\u4E00-\u9FA5]+章)"
m = re.findall(regStr, data)

print(m)

regStr = "([\u4E00-\u9FA5]+)</span></p>"
y = re.findall(regStr, data)

print(y)

 官方说明文档

XPath tutorial — calibre 6.6.1 documentation (calibre-ebook.com)

正则

re — Regular expression operations — Python 3.10.7 documentation

三、生成epub

添加书籍——转换书籍——逐个转换——添加封面——编辑信息——选择h1、h2、h3目录级别——确定

 

posted @ 2022-10-05 01:59  黑冰Lisa  阅读(1156)  评论(0编辑  收藏  举报