Python处理文档中的文本

  1. 提取所有Word 文档中的指定部分内容,并合并到一个txt文件中:
import glob import docx def get_text_between_headings(doc, heading1, heading2): start = -1 end = -1 for i in range(len(doc.paragraphs)): if doc.paragraphs[i].text == heading1: start = i elif doc.paragraphs[i].text == heading2: end = i break return '\n'.join([doc.paragraphs[i].text for i in range(start+1, end)]) # 获取所有Word文件的路径 file_paths = glob.glob('./*.docx') # 创建一个txt文件 with open('./output.txt', 'w', encoding='utf-8') as f: # 遍历每个Word文件,将其内容写入txt文件 for file_path in file_paths: doc = docx.Document(file_path) # text = '\n\n'.join([paragraph.text for paragraph in doc.paragraphs]) # f.write(text) fruit = get_text_between_headings(doc, "Done", "Introspection") # print(fruit) if not (fruit.startswith('Figure') or fruit.startswith('[')): f.write(fruit)

  1. 给txt文档中的所有空行按顺序添加指定内容:
with open('output.txt', 'r') as file: lines = file.readlines() week_no = 0 with open('processed_file.txt', 'w') as file: for i, line in enumerate(lines): if not line.strip(): # 检查行是否为空行 week_no += 1 file.write(f'Week {week_no}') file.write(line)



作者:艾孜尔江
转载请务必标明出处!


__EOF__

本文作者艾孜尔江
本文链接https://www.cnblogs.com/ezhar/p/17381815.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。您的鼓励是博主的最大动力!
posted @   艾孜尔江  阅读(24)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
历史上的今天:
2022-05-08 如何更改本地微信电脑版的消息提示音
2021-05-08 双指旋转操作的核心
2020-05-08 Unity实现写入json文件
点击右上角即可分享
微信分享提示