1.wordcloud 词云
import jieba #分词 from matplotlib import pyplot as plt #绘图,数据可视化 from wordcloud import WordCloud #词云 from PIL import Image #图片处理 import numpy as np #矩阵处理 import sqlite3 #数据库 #1.准备词云的文字,在数据库中获取 #2.分词 cut jieba.cut(text) string=" ".join(cut) print(string)#这里拆分的是词 print(len(string)) #3.处理词与图片的一些设置 img=Image.open(r'.\static\assets\img\tree.jpg')#打开遮罩图片 img_array=np.array(img)#将图片转换为数组 wc=WordCloud( background_color='white', mask=img_arry, font_path="MAIAN.TTF"#字体所在位置,这个不支持中文:C:\WINDOWS\FONTS font_path="msyh.ttc"#字体所在位置,这个支持中文:C:\WINDOWS\FONTS ) wc.generate_from_text(string) #绘制图片 fig=plt.figure(1) plt.imshow(wc) plt.axis("off")#是否显示坐标轴 plt.show()#显示词云图片 plt.savefig("词云图片.jpg")#保存词云图片文件 #搜索中文在链接中如何处理,中文字的转换 from urllib import parse keyword=parse.quote("大数据") newKW=parse.quote(keyword) print(newKW) #快速定位爬取想要的内容 from bs4 import BeautifulSoup html=open("jobList.html","r") bs=BeautifulSoup(html,"html.parser") resultList=bs.select("#resultList")#大范围查找 eldiv=bs.select(".el > .t1 > span > a")#标签层级一级一级搜小范围 print(eldiv) for link in eldiv: print(link["href"])#快速得到链接地址 print(link["title"])#快递获取标题 print(link.text.strip())#快速获取a标签中的内容