平时使用WechatDownload保存了很多技术文章,格式比较乱。
比如很多空白行、英文乱码、页面左右缩进太多等问题,今天一并解决一下
安装python-docx
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 | from docx import Document from docx.shared import Cm import os rootdir = r 'E:\vxWEB\GIS' for files in os.listdir(rootdir): filename = os.path.join(rootdir,files) print (filename) doc = Document(filename) for para in doc.paragraphs: para.paragraph_format.left_indent = Cm( 0 ) #前后缩进 para.paragraph_format.right_indent = Cm( 0 ) # para.paragraph_format.first_line_indent = Cm(1)#首行缩进 para.paragraph_format.line_spacing = 1.0 #行间距 if len (para.text)< = 1 and len (para.runs) < 1 : #删除空行 p = para._element p.getparent().remove(p) p._p = p._element = None for run in para.runs: #设置英文字体 run.font.name = 'Times New Roman' doc.save(filename) print ( 'ok' ) |
空行的删除需要注意,仅判断没有文字会导致图片被删除,这里通过len(para.runs) < 1判断没有图片
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 零经验选手,Compose 一天开发一款小游戏!
· 通过 API 将Deepseek响应流式内容输出到前端
· 因为Apifox不支持离线,我果断选择了Apipost!