园龄：粉丝：关注：

获取docx后缀文件中的所有文字

import docx
import re

# 手动修改
word_name = ""
# 手动修改
document = docx.Document(
    r".\doc\已梳理\未添加（手动添加）\新建 DOCX 文档.docx"
)


all_paragraphs = document.paragraphs
# 获取word文档中的所有文字
word_text_list = [paragraph.text for paragraph in all_paragraphs]
word_text = "".join(word_text_list)
word_text = word_text.replace(":", "：")


# 获取问题列表
Q_list = re.findall("qstart(.*?)qend", word_text)
# 获取答案列表
A_list = re.findall("astart(.*?)aend", word_text)
# A_list.append(A_last)


# 导出
import pandas as pd

df = pd.DataFrame()
df["问题"] = Q_list
print(A_list)
print(len(A_list))
# 若答案有问题，手动修改
df["答案"] = A_list
df["文档来源"] = word_name

# dataframe重排
new_columns = df.columns.to_list()
new_columns.insert(0, "文档来源")
new_columns.pop(-1)
df = df.reindex(columns=new_columns)
df.to_excel("49.xlsx", index=False)

上一篇linux版qq音乐闪退

下一篇合并文件夹下的所有excel文件

本文作者：tiansz

本文链接：https://www.cnblogs.com/tiansz/p/16872693.html

版权声明：本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @ 2022-11-09 10:14 tiansz 阅读(50) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

随笔：345
文章：0
评论：6
阅读：90282

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

1. 浏览器打不开CSDN博客网站解决方法(1)

最新评论

1. Re:《python3破冰人工智能到实践》笔记
支持
--邹昌顺
2. Re:去除列表中的重复值
@Mahmu_d(مەھمۇد) 详细步骤在上面的网址中...
--tiansz
3. Re:去除列表中的重复值
感谢分享。
博客园主题是怎么做的？能不能给我分享一下主题。感谢🍺
--Mahmu_d(مەھمۇد)
4. Re:TensorFlow.js - 使用 CNN(卷积神经网络) 识别手写数字
@ALL|ONE 这个问题我也不太清楚。我的建议是增加隐藏层，或者增大学习率。也有可能是输入和输出数据的维度问题...
--tiansz
5. Re:TensorFlow.js - 使用 CNN(卷积神经网络) 识别手写数字
我有一个线性回归的问题想请教一下？
这是正确训练的结果：

这是我加了一组数据后的结果，均方差会越来越大：
--ALL|ONE