词频统计

英文词频统计:

f = open("test.txt","r") p = f.readlines() f.close() page = p[0] keys = {'this','is','was','he','the','a','in','of','as','that','not','and','in'} page = page.replace(',', ' ').replace('!', ' ').replace('.', ' ').replace('"', '') words = page.lower().split() dict = {} # for w in words: # dict[w] = dict.get(w,0)+1 wordSet = set(words)-keys for w in wordSet: dict[w] = words.count(w) dictWord = list(dict.items()) dictWord.sort(key=lambda x: x[1],reverse=True) for i in range(20): print(dictWord[i])

结果显示:

  

 

中文词频统计:

t = '我父亲是个自学成才的曼陀林琴手,他是我们镇最优秀的弦乐演奏者之一。他看不懂乐谱,但是如果听几次曲子,他就能演奏出来。当他年轻一点的时候,他是一个小乡村乐队的成员。他们在当地舞厅演奏,有几次还为当地广播电台演奏。他经常告诉我们,自己如何试演,如何在佩茜?克莱恩作为主唱的乐队里占一席之位。他告诉家人,一旦被聘用就永不回头。父亲是一个很严谨的人,他讲述了他试演的那天,很多人在喝酒,咒骂,他不想呆在那种环境里。'
text = jieba.cut(t)
print(list(jieba.cut(t)))

  结果显示:

 

posted @ 2018-03-27 17:49  247李嘉嘉  阅读(114)  评论(0编辑  收藏  举报