文件

a.精准模式

import jieba    #处理中文需要的库
fo=open('b.txt','r')#把b.txt的内容读出到of里
news=fo.read()#把of的内容给news
news=list(jieba.cut(news))#精准模式来分词
#print(news)
exp={'','','','\n'} #把不要统计的词放在一个集合里
dict={}     #建立空字典来存需要统计的词频            
keys=set(news)-exp    #在文章的集合里(词频不重复、无序),排除我们不要的词,即exp里面的词      
for i in keys: #对一个字典的键值(唯一),进行统计
    dict[i]=news.count(i)#统计的内容词频来自news里(里面的词可能会重复)
count=list(dict.items()) #因为字典式不能排序的,所以要变成可以排序的列表。具体是对字典里的什么内容排序呢?就是对字典里的每一对值排序,怎么才能对一对排序呢?字典的items()就是输出一对值得函数。

count.sort(key=lambda x:x[1],reverse=True) #lambda()是个定义函数匿名的
for i in range(10): print(count[i]) fo.close() 

B.全模式

news=list(jieba.cut(news,cut_all=True))#把上面的news=list(jieba.cut(news))换成这个即可

3.搜索引擎

news=list(jieba.cut_for_search(news))#把上面的news=list(jieba.cut(news))换成这个即可

D,把一个文本保存

 第一行:  新建一个c.txt文件,把它给fo

第二行:把内容写在fo里,

第三行:保存

pip install jieba

Users\duym\AppData\Local\Programs\Python\Python36>pip install wordcloud-1.3.2-cp36-cp36m-win_amd64.whl

posted @ 2017-09-25 10:33  03郭丽红  阅读(172)  评论(0编辑  收藏  举报