福尔摩斯探案词频统计

福尔摩斯探案词频统计

中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答)
请老师讲一下大数据与气象的关系 比如欧洲中期数值预报中心是如何预报十月的大气环流 美国国家飓风MHC是如何预报哈维对佛罗里达的影响

import jieba txt = open('福尔摩斯探案集.txt',"r",encoding='utf-8').read() >>> ls = [] >>> words = jieba.lcut(txt) Building prefix dict from the default dictionary ... Dumping model to file cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache Loading model cost 0.944 seconds. Prefix dict has been built succesfully. >>> counts = {} >>> for word in words: ls.append(word) if len(word) == 1: continue else: counts[word] = counts.get(word,0)+1 etx = {'一个','没有','什么','已经','可以','这样','他们'} >>> for word in etx: del(counts[word]) items = list(counts.items()) >>> items.sort(key = lambda x:x[1], reverse = True) >>> for i in range(20): word , count = items[i] print ("{:<10}{:>5}".format(word,count))

结果为  

福尔摩斯 5755
我们 3313
先生 2566
这个 2287
知道 1668
但是 1356
就是 1328
如果 1320
因为 1171
现在 1165
自己 1124
可能 1121
那个 996
华生 973
时候 917
可是 888
告诉 851
这些 834
事情 808
那么 802

去除无意义的虚词后可以看出小说主人公是福尔摩斯

for i in range(50):
    word , count = items[i]
    print ("{:<10}{:>5}".format(word,count))

  

福尔摩斯 5755
我们3313
先生 2566
这个 2287
知道 1668
但是 1356
就是 1328
如果 1320
因为 1171
现在 1165
自己 1124
可能 1121
那个 996
华生 973
时候 917
可是 888
告诉 851
这些 834
事情 808
那么 802
看到 790
不是 786
你们 779
说道 719
发现 702
地方 684
朋友 683
非常 679
不会 660
起来 655
一定 653
这里 645
还有 621
东西 600
认为 590
一样 586
这件 586
情况 584
所以 575
问题 575
的话 574
这是 572
还是 568
一些 562
案子 561
然后 560
怎么 547
这位 543
一点 540
不过 536

另一个主人公是华生 主要讲的是福尔摩斯破获的一些案例

posted @ 2017-09-25 16:07  xialuokesh  阅读(432)  评论(0编辑  收藏  举报