《手牵手带你走进python世界》系列五

  import requests
  from bs4 import BeautifulSoup
  import datetime
  import pandas as pd
  import matplotlib.pyplot as plt
  import re
  import jieba
  import numpy as np
  from wordcloud import WordCloud, ImageColorGenerator
  
  url = "https://comment.bilibili.com/92542241.xml"
  r = requests.get(url)
  r.encoding = 'utf8'
  
  
  soup = BeautifulSoup(r.text,'lxml')
  d = soup.find_all('d')
  
  dlst = []
  n = 0
  for i in d:
      n += 1
      danmuku = {}
      danmuku['弹幕'] = i.text
      danmuku['网址'] = url
      danmuku['时间'] = datetime.date.today()
      dlst.append(danmuku)
  
  df = pd.DataFrame(dlst)
  
  with open('sign.txt','w',encoding='utf8') as f:
      for text in df['弹幕'].values:
          pattern = re.compile(r'[一-龥]+')
          filter_data = re.findall(pattern,text)
          f.write("".join(filter_data))
  
  with open('sign.txt', 'r', encoding='utf8') as f:
      data = f.read()
      segment = jieba.lcut(data)
      words_df = pd.DataFrame({"segment": segment})
  
  word_stat = words_df.groupby(by=['segment'])['segment'].agg({'计数':np.size})
  words_stat = word_stat.reset_index().sort_values(by=['计数'],ascending=False)
  
  wordcloud = WordCloud(
      font_path="/Library/Application Support/Apple/Fonts/iLife/BalegaRegular.otf",   # mac上没有该字体
      # font_path="C:\Windows\Fonts\simkai.ttf",
      # 设置字体可以显示中文
      background_color="white",  # 背景颜色
      max_words=3000,  # 词云显示的最大词数
      max_font_size=200,  # 字体最大值
      random_state=100,
      width=1000, height=860, margin=2,
      # 设置图片默认的大小,但是如果使用背景图片的话,                                                   # 那么保存的图片大小将会按照其大小保存,margin为词语边缘距离
  )
  
  # 生成词云, 可以用generate输入全部文本,也可以我们计算好词频后使用generate_from_frequencies函数
  word_frequence = {x[0]: x[1] for x in words_stat.head(500).values}
  word_frequence_dict = {}
  for key in word_frequence:
      word_frequence_dict[key] = word_frequence[key]
  
  wordcloud.generate_from_frequencies(word_frequence_dict)
  # 从背景图片生成颜色值
  # image_colors = ImageColorGenerator(color_mask)
  # 重新上色
  # wordcloud.recolor(color_func=image_colors)
  # 保存图片
  wordcloud.to_file('output.png')
  plt.imshow(wordcloud)
  plt.axis("off")
  plt.show()
posted @   巫小诗  阅读(264)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
阅读排行:
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 零经验选手,Compose 一天开发一款小游戏!
· 因为Apifox不支持离线,我果断选择了Apipost!
· 通过 API 将Deepseek响应流式内容输出到前端
点击右上角即可分享
微信分享提示