复合数据类型，英文词频统计

作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2696

1.列表，元组，字典，集合分别如何增删改查及遍历。

# # -*- coding: utf-8 -*-
#列表的遍历
List=["阿花","小金",80,90]
print("列表的遍历：")
for l1 in List:
    print(l1)
#元组的遍历
Tuple=(23,79,69,40)
print("元组的遍历：")
for T1 in Tuple:
    print(T1)
#集合的遍历
Set={43,58,90,74}
print("集合的遍历：")
for S1 in Set:
    print(S1)
#字典的遍历
classmate=["牛牛","王清","山本"]
sorce=[89,76,90]
d={}
print("字典的遍历：")
d=dict(zip(classmate,sorce))
for i in d.keys():
    print(i,d[i])

2.总结列表，元组，字典，集合的联系与区别。参考以下几个方面：

括号
有序无序
可变不可变
重复不可重复
存储与查找方式

1.列表，元组，字典是有顺序的，而集合是没顺序的

2.列表是以方括号形式表示，元组是以圆括号表示，字典以花括号表示，集合则是以[()]的形式表示

3.列表是可变对象,它支持在原处修改的操作.也可以通过指定的索引和分片获取元素。区别于元组，可动态增加，删除，更新。

4.元组和列表在结构上没有什么区别，唯一的差异在于元组是只读的，不能修改。元组用“()”表示。元组一旦定义其长度和内容都是固定的。一旦创建元组，则这个元组就不能被修改，即不能对元组进行更新、增加、删除操作。若想创建包含一个元素的元组，则必须在该元素后面加逗号“,”，否则创建的不是一个元组，而是一个字符串。

5.集合没有特殊的表示方法，而是通过一个set函数转换成集合。集合是一个无序不重复元素集，基本功能包括关系测试和消除重复元素.。

6.字典最大的价值是查询，通过键，查找值。

3.词频统计

1.下载一长篇小说，存成utf-8编码的文本文件 file

2.通过文件读取字符串 str

3.对文本进行预处理

4.分解提取单词 list

5.单词计数字典 set , dict

6.按词频排序 list.sort(key=lambda),turple

7.排除语法型词汇，代词、冠词、连词等无语义词
- 自定义停用词表
- 或用stops.txt

8.输出TOP(20)

# # -*- coding: utf-8 -*-
fo = open(r'D:\After Twenty Years.txt', encoding='utf-8')
text = fo.read()
fo.close()
text = text.lower()  # 转换成小写
sep = ",.?!:''\n'"

for s in sep:  # 去除各种符号,用空格代替
    text = text.replace(s, ' ')
allWord = text.split(' ')  # 分隔出单词
result = []  # 存储不重复的单词
print("单词    个数")

for b in allWord:
    isRepeat = False
    for c in result:
        if b == c:
            isRepeat=True
    if isRepeat == False:  # 若未出现在result字典里，则加入
        result.append(b)

for ch in result:
    if ch != '':
        print("{:<10} {:<5}".format(ch, allWord.count(ch)))  # 格式化输出

9.可视化：词云

排序好的单词列表word保存成csv文件

import pandas as pd
pd.DataFrame(data=word).to_csv('big.csv',encoding='utf-8')

线上工具生成词云：
https://wordart.com/create

posted @ 2019-03-14 20:47 zz1j 阅读(158) 评论(0) 编辑收藏举报

刷新页面返回顶部

复合数据类型，英文词频统计

公告