基础python学习笔记6——一些好用的库

wordcloud库

w = wordcloud.WordCloud() 表示一个文本对应的词云对象w
可以以WordCloud对象为基础，配置参数，加载文本，输出文件
w.generate(txt) 向WordCloud对象w中加载文本txt（输入文本应当是以空格分隔的大字符串）
w.to_file(filename) 将词云作为图像文件，.png或.jpg格式
width 指定词云生成图片的宽度，默认400像素

>>>w=wordcloud.WordCloud(width=600)

height 指定词云对象生成图片的高度，默认200像素

>>>w=wordcloud.WordCloud(height=400)

min_font_size 指定词云中最小字号，默认4号

>>>w=wordcloud.WordCloud(min_font_size=10)

max_font_size 指定词云中最大字号，根据高度自动调节

>>>w=wordcloud.WordCloud(max_font_size=20)

font_step 指定词云中字体字号的步进间隔，默认为1

>>>w=wordcloud.WordCloud(font_step=2)

font_path 指定字体文件的路径，默认None

>>>w=wordcloud.WordCloud(font_path="msyh.ttc")//微软雅黑字体

max_words 指定词云显示的最大单次数量，默认200

>>>w=wordcloud.WordCloud(max_words=20)

stop_words 指定词云的排除词列表，即不显示的单词列表

>>>w=wordcloud.WordCloud(stop_words={"python"})

mask 指定词云形状，默认为长方形，需要引用imread()函数

>>>from scipy.misc import imread()
>>>mk=imread("pic.png")
>>>w=wordcloud.WordCloud(mask=mk)

background_color 指定词云背景颜色

>>>w=wordcloud.WordCloud(background_color="white")

wordcloud库做了哪些事情：

1、分隔：以空格分割单词
2、统计：单词出现次数并过滤次数特别少的
3、字体：根据统计配置字号
4、布局：颜色环境尺寸

jieba库

优秀的中文分词第三方库qwq（应用原因是中文文本需要通过分词获得单个词语）
一些常见使用：

jieba.lcut(s) 精确模式，返回一个列表类型的分词结果
jieba.lcut(s,cut_all=True) 全模式，所有可能结果，可能存在冗余
jieba.lcut_for_search(s) 搜索引擎模式，返回一个列表类型的分词结果，存在冗余
jieba.add_word(w) 向分词词典增加新词w

一个小实例——词频统计

def getText():
    txt = open("hamlet.txt","r").read()
    txt = txt.lower()
    for ch in '!"#''' :
        txt = txt.replace(ch, " ")
    return txt
hamletTxt = getText()
words = hamletTxt.split()
counts = {}
for word in words :
    counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
print(items)

posted @ 2020-09-01 20:33 风浔凌阅读(177) 评论(0) 收藏举报

刷新页面返回顶部

风浔凌

黑夜一无所有，为何给我安慰博客搬迁到CSDN啦~~

基础python学习笔记6——一些好用的库

wordcloud库

wordcloud库做了哪些事情：

jieba库

公告

风浔凌

黑夜一无所有，为何给我安慰 博客搬迁到CSDN啦~~

基础python学习笔记6——一些好用的库

wordcloud库

wordcloud库做了哪些事情：

jieba库

公告

黑夜一无所有，为何给我安慰博客搬迁到CSDN啦~~