实现中文分词
(1) 读取源文本文件内容
content = "" try:
fo = open(filename)
print("读取文件名:", filename)
for line in fo.readlines():
content += line.strip() print("字数:", len(content))
(2) 使用结巴分词组件做中文分词
rawContent = readFile(rawFileName)
r = '[0-9\s+\.\!\/_,$%^*()?;;:-【】+\"\']+|[+——!,;:。?、
~@#¥%……&*()]+'
rawContent = re.sub(r, " ", rawContent) seg_list = jieba.cut(rawContent, cut_all=False) writeFile(dataFileName, " ".join(seg_list))
(3) 分词结果进行词频统计
with open(dataFileName) as wf, open(sortFileName,'w') as wf2, open(tmpFileName, 'w') as wf3:
for word in wf:
word_lst.append(word.split(' ')) for item in word_lst:
for item2 in item:
if item2 not in word_dict:
word_dict[item2] = 1
else:
word_dict[item2] += 1
(4) 词频统计结果写入新的 txt 文件word_items.sort(reverse = True) for item in word_items:
wf2.write(item.label+' '+str(item.times) + '\n')
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· AI 智能体引爆开源社区「GitHub 热点速览」
· 写一个简单的SQL生成工具