jieba学习
安装jieba pip install jieba/或Spyder中安装,需在anaconda promote中conda install jieba
jieba中默认精准模式2
1、全模式
import jieba sentence="我喜欢上海东方明珠" #cut_all设置模式,Ture全模式 w1=jieba.cut(sentence,cut_all=True) #结果通过循环显示 for item in w1: print(item)
2、精准
import jieba sentence="我喜欢上海东方明珠" #cut_all设置模式,False精准模式 w2=jieba.cut(sentence,cut_all=False) for item in w2: print(item) print("")
3、使用搜索引擎切分:cut_for_search
w3=jieba.cut_for_search(sentence) for item in w3: print(item)
词性标注posseg
import jieba.posseg sentence2=("天善智能公司是很好的机构") w5=jieba.posseg.cut(sentence2) #.flag属性调用词性 #word调用词语 for i in w5: print(i)#print(item.word+"---"+item.flag) a:形容词 c:连词 d:副词 e:叹词 f:方位词 i:成语 m:数次 n:名词 nr:人名 ns:地名 nt:机构团体 nz:其他专有名词 p:介词 r:代词 t:时间 u:助词 v:动词 vn:动名词 w,标点符号 un:未知词语
词典加载:(别忘了编码)utf-8
jieba.load_userdict("新建文件地址") sentence2="天善智能公司是很好的机构" w6=jieba.cut(sentence2) for item in w6: print(item) #加在原来的词典dict中,会持久性输出 #加在自己建的词典里,不会
更改词频
sentence="我喜欢上海东方明珠" w7=jieba.cut(sentence) for i in w7: print(i) jieb.suggest_freq("上海东方",True) w8=jieba.cut(sentence) for item in w8: print(item)
返回文本中频数多的词语
sentence="我喜欢上海东方明珠" #提取关键词 tag=jieba.analyse.extract_tags(sentence,3) print(tag)
返回词语位置
sentence="我喜欢上海东方明珠" w9=jieba.tokenize(sentence) for item in w9: print(item) w10=jieba.tokenize(sentence,mode="search") for item in w9: print(item)
实战:提取盗墓笔记中的关键字
import jieba.analyse data=open("C:/Users/。。。。/Desktop/shenmmingzi/dmbj.txt").read() tag=jieba.analyse.extract_tags(data,20) print(tag)