复合数据类型
1.列表,元组,字典,集合分别如何增删改查及遍历。
2.总结列表,元组,字典,集合的联系与区别。参考以下几个方面:
- 括号
- 有序无序
- 可变不可变
- 重复不可重复
- 存储与查找方式
3.词频统计
-
1.下载一长篇小说,存成utf-8编码的文本文件 file
2.通过文件读取字符串 str
3.对文本进行预处理
4.分解提取单词 list
5.单词计数字典 set , dict
6.按词频排序 list.sort(key=lambda),turple
7.排除语法型词汇,代词、冠词、连词等无语义词
8.输出TOP(20)
- 可视化:词云
排序好的单词列表word保存成csv文件
import pandas as pd
pd.DataFrame(data=word).to_csv('big.csv',encoding='utf-8')
stop=open('stops.txt','r',encoding='utf8').read() stop=stop.split() stopSet=set(stop) def gettxt(): sep = ",.;:?-_" txt = open('star.txt','r',encoding='utf8').read().lower() for ch in sep: txt=txt.replace(ch,' ') return txt starList = gettxt().split() starSet = set(starList) starSet = starSet-stopSet starDict = {} for word in starSet: starDict[word] = starList.count(word) word = list(starDict.items()) word.sort(key=lambda x:x[1],reverse=True) import pandas as pd pd.DataFrame(data=word).to_csv('star.csv',encoding='utf-8') i=0 while True: print(word[i]) i=i+1 if i == 19: break