将Word(docx格式)批量转为Markdown格式
批量转换格式
首先,利用pandoc先将文件夹内的docx格式文档转为md格式。可以直接在目录下执行下面的powershell命令。
这一步我其实写了python脚本,但不知为何一直无法正确执行,可能是目录格式的原因,改天再琢磨一下。PS其实也蛮简单的
Get-ChildItem -Recurse -Filter *.docx | ForEach-Object {
pandoc -o ($_.FullName + '.md') $_.FullName
}
将目录下的文档合并为一个Markdown文件
第二步是调用下面的python命令,将目录下的文档合并为一个md文件。合并完成后,可以在文件夹内找到一个名为“合并”的md文件
import os
# 将合并后的Markdown文件保存至目录下
def saveContent(data,path):
with open(path+"合并.md","a+",encoding='utf-8') as targetFile:
targetFile.writelines(data)
print("文件已保存")
def getFileList(fileList):
# md待合并分散文件目录
all_md_files = []
# 获取目录下的md文件, 并保存
for file_name in fileList:
try:
if file_name[-3:] == ".md":
all_md_files.append(file_name)
except Exception as e:
print(e)
return all_md_files
# 在md文件中遍历合并项
def combineFiles(mdFileList,path):
for md in mdFileList:
md_file=path +'/'+md
print("已完成"+md+"遍历")
with open(md_file,'r',encoding='utf-8') as file:
data=file.read()+"\n"
saveContent(data,path)
def start():
path="D:/“中国这十年”专题新闻发布会实录汇总/"
# 检索目录下所有文件
allFilesName=os.listdir(path)
# 检索全部文件中的Markdown文件
mdFilesName=getFileList(allFilesName)
# 对Markdown文件执行合并操作
combineFiles(mdFilesName,path)
print("处理完成")
start()
作者:启真湖畔的佐时雨
出处:https://www.cnblogs.com/misaka10212/p/16751506.html
版权:本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。
伊比利亚的眼睛不会闭合,伊比利亚的眼睛只是暂时被阴霾遮蔽
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· 单线程的Redis速度为什么快?
· 展开说说关于C#中ORM框架的用法!
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库