import docx
import jieba
from collections import Counter
import pandas as pd
document =docx.Document(r'D:\免安装使用\WeChatDownload v20200423\曹政的梦呓合集10.docx')
content = ' '.join([para.text for para in document.paragraphs])
print(len(content))
seg_list = jieba.cut(content,cut_all=False)
print(type(seg_list))
seg_list = [word for word in seg_list if len(word)>1]
counter = Counter(seg_list)
df = pd.DataFrame(list(counter.items()),columns=['word','count'])
df.sort_values(by='count',ascending=False,inplace=True)
print(df.head())
df.to_excel('分析结果-词频数据.xlsx',index=False)
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步