复合数据类型

1.列表,元组,字典,集合分别如何增删改查及遍历。

2.总结列表,元组,字典,集合的联系与区别。参考以下几个方面:

  • 括号
  • 有序无序
  • 可变不可变
  • 重复不可重复
  • 存储与查找方式

3.词频统计

  • 1.下载一长篇小说,存成utf-8编码的文本文件 file

    2.通过文件读取字符串 str

    3.对文本进行预处理

    4.分解提取单词 list

    5.单词计数字典 set , dict

    6.按词频排序 list.sort(key=lambda),turple

    7.排除语法型词汇,代词、冠词、连词等无语义词

    8.输出TOP(20)

  • 可视化:词云

 排序好的单词列表word保存成csv文件

import pandas as pd
pd.DataFrame(data=word).to_csv('big.csv',encoding='utf-8')
stop=open('stops.txt','r',encoding='utf8').read()
stop=stop.split()
stopSet=set(stop)

def gettxt():
    sep = ",.;:?-_"
    txt = open('star.txt','r',encoding='utf8').read().lower()
    for ch in sep:
        txt=txt.replace(ch,' ')
    return txt

starList = gettxt().split()
starSet = set(starList)
starSet = starSet-stopSet
starDict = {}
for word in starSet:
    starDict[word] = starList.count(word)

word = list(starDict.items())
word.sort(key=lambda  x:x[1],reverse=True)

import pandas as pd
pd.DataFrame(data=word).to_csv('star.csv',encoding='utf-8')
i=0
while True:
    print(word[i])
    i=i+1
    if i == 19:
        break

 

 

 

 



 

posted @ 2019-03-11 18:18  潘文祥  阅读(284)  评论(0编辑  收藏  举报