文件

a.精准模式

import jieba    #处理中文需要的库
fo=open('b.txt','r')#把b.txt的内容读出到of里
news=fo.read()#把of的内容给news
news=list(jieba.cut(news))#精准模式来分词
#print(news)
exp={'','，','。','\n'} #把不要统计的词放在一个集合里
dict={}     #建立空字典来存需要统计的词频            
keys=set(news)-exp    #在文章的集合里（词频不重复、无序），排除我们不要的词，即exp里面的词      
for i in keys: #对一个字典的键值（唯一），进行统计
    dict[i]=news.count(i)#统计的内容词频来自news里（里面的词可能会重复）
count=list(dict.items()) #因为字典式不能排序的，所以要变成可以排序的列表。具体是对字典里的什么内容排序呢？就是对字典里的每一对值排序，怎么才能对一对排序呢？字典的items（）就是输出一对值得函数。

count.sort(key=lambda x:x[1],reverse=True) #lambda()是个定义函数匿名的

for i in range(10): print(count[i]) fo.close()

B.全模式

news=list(jieba.cut(news,cut_all=True))#把上面的news=list(jieba.cut(news))换成这个即可

3.搜索引擎

news=list(jieba.cut_for_search(news))#把上面的news=list(jieba.cut(news))换成这个即可

D，把一个文本保存

第一行：新建一个c.txt文件，把它给fo

第二行：把内容写在fo里，

第三行:保存

pip install jieba

Users\duym\AppData\Local\Programs\Python\Python36>pip install wordcloud-1.3.2-cp36-cp36m-win_amd64.whl

posted @ 2017-09-25 10:33 03郭丽红阅读(172) 评论(0) 编辑收藏举报

刷新页面返回顶部

03郭丽红

文件

公告