自然语言处理-01-词云图(wordcloud)
wordcloud可自动统计词频制作词云图:
1.如果处理语言为英语可以进行常规用法
2.如果处理语言为中文需要先进行结巴分词,并在WordCloud参数中加入font_path属性
点击查看代码
from wordcloud import WordCloud,STOPWORDS
import numpy
import PIL.Image as Image
import json
def startBuildWords():
text = ''
try: #读取本地json文件提取文本
with open("../file/result_clear.json",'r') as load_f:
load_dict = json.load(load_f)
text = json.dumps(load_dict['content'])
except:
return False
#print(text)
#2.图片遮罩层
mask_pic= numpy.array(Image.open("../picture/world.jpg"))
#设置停止词
m_stopwords=['and','to','and','the','with','in','by','its','for','of','an','to']
for word in m_stopwords:
STOPWORDS.add(word)
wordcloud = WordCloud(font_path="../font/TimesNewRoman.ttf",
width = 1500 ,
height = 1000 ,
# min_font_size = 20,
mask=mask_pic, #3.将参数mask设值为:mask_pic
stopwords = STOPWORDS,
# background_color="white",
).generate(text)
image = wordcloud.to_image()
image.show()
wordcloud.to_file("../ciyuntu/ciyun.png")
return True
startBuildWords()
本文来自博客园,作者:相对维度,转载请注明原文链接:https://www.cnblogs.com/wangjirui/articles/15935876.html
分类:
自然语言处理与数据可视化
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!