1.wordcloud 词云

import jieba  #分词
from matplotlib import pyplot as plt #绘图,数据可视化
from wordcloud import WordCloud  #词云
from PIL import Image        #图片处理
import numpy as np        #矩阵处理
import sqlite3            #数据库

#1.准备词云的文字,在数据库中获取
#2.分词
cut jieba.cut(text)
string=" ".join(cut)
print(string)#这里拆分的是词
print(len(string))
#3.处理词与图片的一些设置
img=Image.open(r'.\static\assets\img\tree.jpg')#打开遮罩图片
img_array=np.array(img)#将图片转换为数组
wc=WordCloud(
    background_color='white',
    mask=img_arry,
    font_path="MAIAN.TTF"#字体所在位置,这个不支持中文:C:\WINDOWS\FONTS
    font_path="msyh.ttc"#字体所在位置,这个支持中文:C:\WINDOWS\FONTS
)
wc.generate_from_text(string)
#绘制图片
fig=plt.figure(1)
plt.imshow(wc)
plt.axis("off")#是否显示坐标轴
plt.show()#显示词云图片
plt.savefig("词云图片.jpg")#保存词云图片文件



#搜索中文在链接中如何处理,中文字的转换
from urllib import parse
keyword=parse.quote("大数据")
newKW=parse.quote(keyword)
print(newKW)

#快速定位爬取想要的内容
from bs4 import BeautifulSoup
html=open("jobList.html","r")
bs=BeautifulSoup(html,"html.parser")
resultList=bs.select("#resultList")#大范围查找
eldiv=bs.select(".el > .t1 > span > a")#标签层级一级一级搜小范围
print(eldiv)
for link in eldiv:
    print(link["href"])#快速得到链接地址
    print(link["title"])#快递获取标题
    print(link.text.strip())#快速获取a标签中的内容

 

posted @ 2021-03-09 11:05  种太阳  阅读(9)  评论(0编辑  收藏  举报