复合数据类型，英文词频统计 - QiuhuaLiang

这次作业来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753

1.列表，元组，字典，集合分别如何增删改查及遍历。

（1）列表

list = ['KOBE', 'INGRAM', 'BALL', 7777];
list1 = [1,2,3,4,5];


list.append('JAMES');
print ( list);


list.extend(list1);
print ( list);


list.insert(1,'KUZMA');
print ( list);


list[0]='MAGIC';
print ( list);

list = ['KOBE', 'INGRAM', 'BALL', 7777];
list1 = [1,2,3,4,5];


del list[1];
print (list)


list.pop()
print (list)

list.pop(1)
print (list)

list = ['KOBE', 'INGRAM', 'BALL', 7777];
list1 = [1,2,3,4,5];


x = list.index('KOBE');
print(x);


y = list[0];
print(y);

z = list[1:3];
print(z);

list1 = [1,2,3,4,5];


print(len(list1));


print(max(list1));


print(min(list1));

(2)元组

tup1 = ('KOBE', 'INGRAM', 'BALL', 7777);
tup2 = (1,2,3,4,5);

tup3 = tup1 + tup2;
print (tup3);

tup1 = ('KOBE', 'INGRAM', 'BALL', 7777);
tup2 = (1,2,3,4,5);

del tup1;

tup1 = ('KOBE', 'INGRAM', 'BALL', 7777);
tup2 = (1,2,3,4,5);

print ("tup1[0]: ", tup1[0]);
print ("tup1[1:3]: ", tup1[1:3]);

(3)字典

dict = {'KOBE': 24, 'JAMES': 23, 'BALL': 2,'KUZMA':0,'INGRAM':14};


dict['KOBE'] = 8;
print(dict);

dict['HART'] = 5;
print(dict);

dict = {'KOBE': 24, 'JAMES': 23, 'BALL': 2,'KUZMA':0,'INGRAM':14};


del dict['JAMES'];
print(dict);


dict.clear();
print(dict);

del dict

dict = {'KOBE': 24, 'JAMES': 23, 'BALL': 2,'KUZMA':0,'INGRAM':14};


print ( dict['KOBE']);

（4）集合

set = {'KOBE', 'JAMES', 'BALL','KUZMA','INGRAM'};
set.add('magic');
print(set);


set.update({777,888});
print(set);

set = {'KOBE', 'JAMES', 'BALL','KUZMA','INGRAM'};
set.add('magic');
print(set);


set.remove('JAMES')
print(set)

2.总结列表，元组，字典，集合的联系与区别。

列表（list）是Python中最有用的一种内置类型，是处理一组有序项目的数据结构，或者说，是一个有序对象的集合。

元组（tuple）就是不可更改的列表，一旦创建，便不可更改。除了表示的方式有点不一样、元组的元素不可更改，其他的特性与前面学习的列表基本一致。

字典含义和表示都与我们语义上的感觉近似。像小时候查找汉字，我们通过拼音字母（或笔画）进行索引,Python中的字典我们可以自己定义名字，然后通过这个名字查找到对应的数值。这个名字叫做键，对应的数值简称值，所以字典也称键值对。需要注意的是，字典没有顺序一说，所有的值仅能用键获取。

简而言之，字典被看作无序的键值对或有名字的元素列表。

集合是无序的对象集，它和字典一样使用花括号{}，但没有键值对的概念。它属于可变的数据类型，一般用于保持序列的唯一性——也就是同样的元素仅出现一次。

在使用时一定要注意集合的无序和唯一两个特点，避免出错。

3.词频统计

1.下载一长篇小说，存成utf-8编码的文本文件 file

2.通过文件读取字符串 str

3.对文本进行预处理

4.分解提取单词 list

5.单词计数字典 set , dict

6.按词频排序 list.sort(key=lambda),turple

7.排除语法型词汇，代词、冠词、连词等无语义词
- 自定义停用词表
- 或用stops.txt

8.输出TOP(20)

9.可视化：词云

排序好的单词列表word保存成csv文件

import pandas as pd
pd.DataFrame(data=word).to_csv('big.csv',encoding='utf-8')

线上工具生成词云：
https://wordart.com/create

发表于 2019-03-18 15:04 QiuhuaLiang 阅读(193) 评论(0) 编辑收藏举报