完整中英文词频

fo=open("英文歌词.txt","r",encoding='utf-8')  #读进英文歌词文本
strRun=fo.read()
fo.close()
print(strRun)

strList = strRun.split()      #分隔英文字符并输出长度
print(len(strList), strList)

strListSort=strList.sort()     #对字符列表进行排序
print(strListSort)
print(strList)

sep='.,:?!'    #对英文字符标点符号进行预处理
for x in sep:
    j=strRun.replace(x,'')
print(strRun)

strSet=set(strList)    #对英文中介词进行筛选去除
exclude={"a","the","to","at"}
st=strSet-exclude
print(len(st),strSet)

strDict = {}      #对英文单词进行遍历并计算词频长度
for word in strSet:
     strDict[word] = strList.count(word)
     print(len(strDict),strDict)

strList.sort(key=lambda  x:x[1],reverse=True)     #用lambda函数排序
print(strList)

for i in range(20):     #输出前20个
    print(strList[i])

import jieba 
k='美国时代周刊电脑学习班电脑软甲学习计算机学习真的身份证号专业翻译' 
print(list(jieba.cut(k))) 
print(list(jieba.cut(k,cut_all=True))) 
print(list(jieba.cut_for_search(k))) 

fo1=open("水浒传.txt","r",encoding='utf-8') 
Run=fo1.read() 
fo1.close() 

print(Run) print(list(jieba.cut(Run))) 
print(list(jieba.cut(Run,cut_all=True))) 
print(list(jieba.cut_for_search(Run)))

posted @ 2018-09-27 11:51 何美玲阅读(267) 评论(0) 收藏举报

何美玲

完整中英文词频

公告