词云分析之英文
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 | from pyecharts import WordCloud import jieba import re import nltk with open (r 'F:\算法\others\merry.txt' , 'r' , encoding = 'utf-8' ) as f: text = f.readlines() word_list = [] word_dic = {} for line in text: if re.findall( '([a-zA-Z])' , line.strip()): result = "".join(i for i in line.strip() if ord (i) < 256 ) from nltk.tokenize import WordPunctTokenizer words = WordPunctTokenizer().tokenize(result) for w in words: if 97 < = ord (w.lower()[ 0 ]) < = 122 : word_list.append(w) # print(word_list) set_word_list = list ( set (word_list)) for set_word in set_word_list: word_dic[set_word] = word_list.count(set_word) # print(word_dic) name = [] value = [] for k,v in word_dic.items(): name.append(k) value.append( int (v) * 100 ) wordcloud = WordCloud(width = 1300 , height = 620 ) wordcloud.add("", name, value, word_size_range = [ 20 , 100 ],shape = 'pentagon' ) wordcloud.render( 'test.html' ) |
Win a contest, win a challenge
posted on 2018-12-25 17:19 pandaboy1123 阅读(375) 评论(0) 编辑 收藏 举报
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南