python使用jieba实现中文文档分词和去停用词
分词工具的选择:
现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。
分词前的准备:
- 待分词的中文文档
- 存放分词之后的结果文档
- 中文停用词文档(用于去停用词,在网上可以找到很多)
分词之后的结果呈现:
去停用词和分词前的中文文档
去停用词和分词之后的结果文档
分词和去停用词代码实现:
1 import jieba 2 3 # 创建停用词列表 4 def stopwordslist(): 5 stopwords = [line.strip() for line in open('chinsesstoptxt.txt',encoding='UTF-8').readlines()] 6 return stopwords 7 8 # 对句子进行中文分词 9 def seg_depart(sentence): 10 # 对文档中的每一行进行中文分词 11 print("正在分词") 12 sentence_depart = jieba.cut(sentence.strip()) 13 # 创建一个停用词列表 14 stopwords = stopwordslist() 15 # 输出结果为outstr 16 outstr = '' 17 # 去停用词 18 for word in sentence_depart: 19 if word not in stopwords: 20 if word != '\t': 21 outstr += word 22 outstr += " " 23 return outstr 24 25 # 给出文档路径 26 filename = "Init.txt" 27 outfilename = "out.txt" 28 inputs = open(filename, 'r', encoding='UTF-8') 29 outputs = open(outfilename, 'w', encoding='UTF-8') 30 31 # 将输出结果写入ou.txt中 32 for line in inputs: 33 line_seg = seg_depart(line) 34 outputs.write(line_seg + '\n') 35 print("-------------------正在分词和去停用词-----------") 36 outputs.close() 37 inputs.close() 38 print("删除停用词和分词成功!!!")
作者:醉曦
欢迎任何形式的转载,但请务必注明出处。
限于本人水平,如果文章和代码有表述不当之处,还请不吝赐教。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术
· .NET周刊【3月第1期 2025-03-02】