jieba学习

安装jieba pip install jieba/或Spyder中安装,需在anaconda promote中conda install jieba
jieba中默认精准模式2
1、全模式

import jieba
sentence="我喜欢上海东方明珠"
#cut_all设置模式,Ture全模式
w1=jieba.cut(sentence,cut_all=True)
#结果通过循环显示
for item in w1:
print(item)

2、精准

import jieba
sentence="我喜欢上海东方明珠"
#cut_all设置模式,False精准模式
w2=jieba.cut(sentence,cut_all=False)
for item in w2:
    print(item)
print("")

3、使用搜索引擎切分:cut_for_search

w3=jieba.cut_for_search(sentence)
for item in w3:
    print(item)

词性标注posseg

import jieba.posseg
sentence2=("天善智能公司是很好的机构")
w5=jieba.posseg.cut(sentence2)
#.flag属性调用词性
  #word调用词语  
for i in w5:
    print(i)#print(item.word+"---"+item.flag)
a:形容词
c:连词
d:副词
e:叹词
f:方位词
i:成语
m:数次
n:名词
nr:人名
ns:地名
nt:机构团体
nz:其他专有名词
p:介词
r:代词
t:时间
u:助词
v:动词
vn:动名词
w,标点符号
un:未知词语

词典加载:(别忘了编码)utf-8

jieba.load_userdict("新建文件地址")
sentence2="天善智能公司是很好的机构"
w6=jieba.cut(sentence2)
for item in w6:
    print(item)
#加在原来的词典dict中,会持久性输出
#加在自己建的词典里,不会

更改词频

sentence="我喜欢上海东方明珠"
w7=jieba.cut(sentence)
for i in w7:
    print(i)

jieb.suggest_freq("上海东方",True)
w8=jieba.cut(sentence)
for item in w8:
    print(item)

返回文本中频数多的词语

sentence="我喜欢上海东方明珠"
#提取关键词
tag=jieba.analyse.extract_tags(sentence,3)
print(tag)

返回词语位置

sentence="我喜欢上海东方明珠"
w9=jieba.tokenize(sentence)
for item in w9:
    print(item)

w10=jieba.tokenize(sentence,mode="search")
for item in w9:
    print(item)

实战:提取盗墓笔记中的关键字

import jieba.analyse
data=open("C:/Users/。。。。/Desktop/shenmmingzi/dmbj.txt").read()
tag=jieba.analyse.extract_tags(data,20)
print(tag)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

posted @ 2018-06-09 00:06  秋雨秋雨秋雨  阅读(595)  评论(0编辑  收藏  举报