这次作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753
1.列表,元组,字典,集合分别如何增删改查及遍历。
(1)列表
list = ['KOBE', 'INGRAM', 'BALL', 7777]; list1 = [1,2,3,4,5]; list.append('JAMES'); print ( list); list.extend(list1); print ( list); list.insert(1,'KUZMA'); print ( list); list[0]='MAGIC'; print ( list);
list = ['KOBE', 'INGRAM', 'BALL', 7777]; list1 = [1,2,3,4,5]; del list[1]; print (list) list.pop() print (list) list.pop(1) print (list)
list = ['KOBE', 'INGRAM', 'BALL', 7777]; list1 = [1,2,3,4,5]; x = list.index('KOBE'); print(x); y = list[0]; print(y); z = list[1:3]; print(z);
list1 = [1,2,3,4,5]; print(len(list1)); print(max(list1)); print(min(list1));
(2)元组
tup1 = ('KOBE', 'INGRAM', 'BALL', 7777); tup2 = (1,2,3,4,5); tup3 = tup1 + tup2; print (tup3);
tup1 = ('KOBE', 'INGRAM', 'BALL', 7777); tup2 = (1,2,3,4,5); del tup1;
tup1 = ('KOBE', 'INGRAM', 'BALL', 7777); tup2 = (1,2,3,4,5); print ("tup1[0]: ", tup1[0]); print ("tup1[1:3]: ", tup1[1:3]);
(3)字典
dict = {'KOBE': 24, 'JAMES': 23, 'BALL': 2,'KUZMA':0,'INGRAM':14}; dict['KOBE'] = 8; print(dict); dict['HART'] = 5; print(dict);
dict = {'KOBE': 24, 'JAMES': 23, 'BALL': 2,'KUZMA':0,'INGRAM':14}; del dict['JAMES']; print(dict); dict.clear(); print(dict); del dict
dict = {'KOBE': 24, 'JAMES': 23, 'BALL': 2,'KUZMA':0,'INGRAM':14}; print ( dict['KOBE']);
(4)集合
set = {'KOBE', 'JAMES', 'BALL','KUZMA','INGRAM'}; set.add('magic'); print(set); set.update({777,888}); print(set);
set = {'KOBE', 'JAMES', 'BALL','KUZMA','INGRAM'}; set.add('magic'); print(set); set.remove('JAMES') print(set)
2.总结列表,元组,字典,集合的联系与区别。
列表(list)是Python中最有用的一种内置类型,是处理一组有序项目的数据结构,或者说,是一个有序对象的集合。
元组(tuple)就是不可更改的列表,一旦创建,便不可更改。除了表示的方式有点不一样、元组的元素不可更改,其他的特性与前面学习的列表基本一致。
字典含义和表示都与我们语义上的感觉近似。像小时候查找汉字,我们通过拼音字母(或笔画)进行索引,Python中的字典我们可以自己定义名字,然后通过这个名字查找到对应的数值。这个名字叫做键,对应的数值简称值,所以字典也称键值对。需要注意的是,字典没有顺序一说,所有的值仅能用键获取。
简而言之,字典被看作无序的键值对或有名字的元素列表。
集合是无序的对象集,它和字典一样使用花括号{}
,但没有键值对的概念。它属于可变的数据类型,一般用于保持序列的唯一性——也就是同样的元素仅出现一次。
在使用时一定要注意集合的无序和唯一两个特点,避免出错。
3.词频统计
-
1.下载一长篇小说,存成utf-8编码的文本文件 file
2.通过文件读取字符串 str
3.对文本进行预处理
4.分解提取单词 list
5.单词计数字典 set , dict
6.按词频排序 list.sort(key=lambda),turple
7.排除语法型词汇,代词、冠词、连词等无语义词
- 自定义停用词表
- 或用stops.txt
8.输出TOP(20)
- 9.可视化:词云
排序好的单词列表word保存成csv文件
import pandas as pd
pd.DataFrame(data=word).to_csv('big.csv',encoding='utf-8')
线上工具生成词云:
https://wordart.com/create