复合数据类型,英文词频统计

1.列表,元组,字典,集合分别如何增删改查及遍历。

列表:

复制代码
list =['Michael','Bob','girl','克里斯',55]    #列表
list2=[44,"smile"]  #列表2
#增
list.append('like')  # 将元素like增加到列表结尾
list.extend(list2)  # 将list2列表中的元素增加到list中
list.insert(2, 'Nacy')  #在指定位置插入一个元素

#删
list.pop()    #删除最后一个元素
list.pop(1)   #删除指定位置的元素

#改
list[0] = 'if' #修改指定位置的元素

#查
i=list.index(55)    #返回值为55的元素的索引位置
print(i)

#遍历列表中的每一个元素
for i in list: print(i)
复制代码

元组:

复制代码
tup = ('head', 'pop','style', 36);    #元组
#增
tup2 = ('A', 88,'room')
tup3=tup+tup2  #元组不支持修改,但可以通过连接组合的方式进行增加
print(tup3)

#删
del tup   #元组不能删除单个元素,但能把元组当做一个整体删除

#查
print(tup3[2])   #查找指定位置的元素

#遍历
for g in tup3:
    print(g)  #遍历元组中的每一个元素
复制代码

字典:

 

复制代码
dict={'bob':85,'nacy':70,'mary':90}  #字典
#增
dict['jack']=60 #将元素添加在最后面
print(dict)

#删
del (dict['mary'])  #删除key为'mary'的元素
dict.pop('nacy')    #删除key为'nacy'的元素
print(dict)

#修改
dict['bob']=87 #通过对已有key重新赋值的方法来进行修改
print(dict)

#查询
print(dict['bob'])  #查询key值为'bob'的值
print(dict.items()) #以列表返回可遍历的(键, 值) 元组数组
print(dict.get('bob')) #得到key值为'bob'的值

#遍历
for key in dict.keys():
    print(key)   #遍历每个元素并返回元素的key值
for value in dict.values():
    print(value)  #遍历每个元素并返回元素的value值
复制代码

集合:

 

复制代码
set={1,2,3,4,5} #集合
#增
set.add(7)
print(set)

#删
set.remove(4)
print(set)

#集合无序,不能进行修改和查找

#遍历
for s in set:
    print(s)
复制代码

 

 

2.总结列表,元组,字典,集合的联系与区别。参考以下几个方面:

  • 括号
  • 有序无序
  • 可变不可变
  • 重复不可重复
  • 存储与查找方式

3.词频统计

  • 1.下载一长篇小说,存成utf-8编码的文本文件 file

    2.通过文件读取字符串 str

    3.对文本进行预处理

    4.分解提取单词 list

    5.单词计数字典 set , dict

    6.按词频排序 list.sort(key=lambda),turple

    7.排除语法型词汇,代词、冠词、连词等无语义词

    • 自定义停用词表
    • 或用stops.txt

  8.输出TOP(20)

  • 9.可视化:词云
posted @ 2019-03-14 09:53  黄泽丰  阅读(176)  评论(0编辑  收藏  举报