爬虫综合大作业
本次作业来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159
一、安装wxpy
pip install wxpy
二、微信登录
机器人 Bot
对象可被理解为一个 Web 微信客户端。Bot
在初始化时便会执行登陆操作,需要手机扫描登陆。
获取好友:通过friends()
获取到所有好友信息,然后进行数据的处理。
#初始化,扫码登录 bot = Bot() #获取好友 my_friends = bot.friends() print(type(my_friends)) # 使用一个字典统计好友男性和女性的数量 sex_dict = {'male': 0, 'female': 0} for friend in my_friends: # 统计性别 if friend.sex == 1: sex_dict['male'] += 1 elif friend.sex == 2: sex_dict['female'] += 1 print(sex_dict) # 使用一个字典统计各省好友数量 province_dict = {'北京': 0, '上海': 0, '天津': 0, '重庆': 0, '河北': 0, '山西': 0, '吉林': 0, '辽宁': 0, '黑龙江': 0, '陕西': 0, '甘肃': 0, '青海': 0, '山东': 0, '福建': 0, '浙江': 0, '台湾': 0, '河南': 0, '湖北': 0, '湖南': 0, '江西': 0, '江苏': 0, '安徽': 0, '广东': 0, '海南': 0, '四川': 0, '贵州': 0, '云南': 0, '内蒙古': 0, '新疆': 0, '宁夏': 0, '广西': 0, '西藏': 0, '香港': 0, '澳门': 0} # 统计省份 for friend in my_friends: if friend.province in province_dict.keys(): province_dict[friend.province] += 1 # 为了方便数据的呈现,生成JSON Array格式数据 data = [] for key, value in province_dict.items(): data.append({'name': key, 'value': value}) print(data)
三、数据统计
使用一个字典sex_dict来统计好友中男性和女性的数量。
ECharts饼图 进行数据的呈现
option = { title : { text: '微信好友性别比例', subtext: '真实数据', x:'center' }, tooltip : { trigger: 'item', formatter: "{a} <br/>{b} : {c} ({d}%)" }, legend: { orient : 'vertical', x : 'left', data:['男性','女性'] }, toolbox: { show : true, feature : { mark : {show: true}, dataView : {show: true, readOnly: false}, magicType : { show: true, type: ['pie', 'funnel'], option: { funnel: { x: '25%', width: '50%', funnelAlign: 'left', max: 1548 } } }, restore : {show: true}, saveAsImage : {show: true} } }, calculable : true, series : [ { name:'访问来源', type:'pie', radius : '55%', center: ['50%', '60%'], data:[ {value:326, name:'男性'}, {value:207, name:'女性'} ] } ] };
[{'name': '北京', 'value': 4}, {'name': '上海', 'value': 3}, {'name': '天津', 'value': 0}, {'name': '重庆', 'value': 2}, {'name': '河北', 'value': 0}, {'name': '山西', 'value': 1}, {'name': '吉林', 'value': 0}, {'name': '辽宁', 'value': 0}, {'name': '黑龙江', 'value': 1}, {'name': '陕西', 'value': 2}, {'name': '甘肃', 'value': 1}, {'name': '青海', 'value': 1}, {'name': '山东', 'value': 0}, {'name': '福建', 'value': 1}, {'name': '浙江', 'value': 4}, {'name': '台湾', 'value': 0}, {'name': '河南', 'value': 0}, {'name': '湖北', 'value': 0}, {'name': '湖南', 'value': 0}, {'name': '江西', 'value': 0}, {'name': '江苏', 'value': 1}, {'name': '安徽', 'value': 0}, {'name': '广东', 'value': 370}, {'name': '海南', 'value': 0}, {'name': '四川', 'value': 0}, {'name': '贵州', 'value': 0}, {'name': '云南', 'value': 0}, {'name': '内蒙古', 'value': 0}, {'name': '新疆', 'value': 0}, {'name': '宁夏', 'value': 0}, {'name': '广西', 'value': 0}, {'name': '西藏', 'value': 0}, {'name': '香港', 'value': 1}, {'name': '澳门', 'value': 0}]
option = { title : { text: '微信好友全国分布图', subtext: '真实数据' }, tooltip : { trigger: 'item' }, legend: { orient: 'vertical', x:'right', data:['好友数量'] }, dataRange: { min: 0, max: 370, x: 'left', y: 'bottom', text:['高','低'], // 文本,默认为数值文本 calculable : true }, toolbox: { show : true, orient: 'vertical', x:'right', y:'center', feature : { mark : {show: true}, restore : {show: true}, saveAsImage : {show: true}, dataView : {show: true, readOnly: false} } }, series : [ { name: '好友数量', type: 'map', mapType: 'china', mapLocation: { x: 'left' }, selectedMode : 'multiple', itemStyle:{ normal:{label:{show:true}}, emphasis:{label:{show:true}} }, data:[ {'name': '北京', 'value': 4}, {'name': '上海', 'value': 3}, {'name': '天津', 'value': 0}, {'name': '重庆', 'value': 2}, {'name': '河北', 'value': 0}, {'name': '山西', 'value': 1}, {'name': '吉林', 'value': 0}, {'name': '辽宁', 'value': 0}, {'name': '黑龙江', 'value': 1}, {'name': '陕西', 'value': 2}, {'name': '甘肃', 'value': 1}, {'name': '青海', 'value': 1}, {'name': '山东', 'value': 0}, {'name': '福建', 'value': 1}, {'name': '浙江', 'value': 4}, {'name': '台湾', 'value': 0}, {'name': '河南', 'value': 0}, {'name': '湖北', 'value': 0}, {'name': '湖南', 'value': 0}, {'name': '江西', 'value': 0}, {'name': '江苏', 'value': 1}, {'name': '安徽', 'value': 0}, {'name': '广东', 'value': 370}, {'name': '海南', 'value': 0}, {'name': '四川', 'value': 0}, {'name': '贵州', 'value': 0}, {'name': '云南', 'value': 0}, {'name': '内蒙古', 'value': 0}, {'name': '新疆', 'value': 0}, {'name': '宁夏', 'value': 0}, {'name': '广西', 'value': 0}, {'name': '西藏', 'value': 0}, {'name': '香港', 'value': 1}, {'name': '澳门', 'value': 0}] } ], animation: false }; var ecConfig = require('echarts/config'); myChart.on(ecConfig.EVENT.MAP_SELECTED, function (param){ var selected = param.selected; var mapSeries = option.series[0]; var data = []; var legendData = []; var name; for (var p = 0, len = mapSeries.data.length; p < len; p++) { name = mapSeries.data[p].name; //mapSeries.data[p].selected = selected[name]; if (selected[name]) { data.push({ name: name, value: mapSeries.data[p].value }); legendData.push(name); } } option.legend.data = legendData; option.series[1].data = data; myChart.setOption(option, true); })
签名统计::::::::::::::::::
对好友签名进行清洗以及保存的功能,执行完成之后会在当前目录生成signatures.txt
文件。
def write_txt_file(path, txt): ''' 写入txt文本 ''' with open(path, 'a', encoding='gb18030', newline='') as f: f.write(txt) # 统计签名 for friend in my_friends: # 对数据进行清洗,将标点符号等对词频统计造成影响的因素剔除 pattern = re.compile(r'[一-龥]+') filterdata = re.findall(pattern, friend.signature) write_txt_file('signatures.txt', ''.join(filterdata)) def read_txt_file(path): ''' 读取txt文本 ''' with open(path, 'r', encoding='gb18030', newline='') as f: return f.read() content = read_txt_file(txt_filename) segment = jieba.lcut(content) words_df=pd.DataFrame({'segment':segment}) stopwords=pd.read_csv("stopwords.txt",index_col=False,quoting=3,sep=" ",names=['stopword'],encoding='utf-8') words_df=words_df[~words_df.segment.isin(stopwords.stopword)]
import numpy words_stat = words_df.groupby(by=['segment'])['segment'].agg({"计数":numpy.size}) words_stat = words_stat.reset_index().sort_values(by=["计数"],ascending=False) from scipy.misc import imread from wordcloud import WordCloud, ImageColorGenerator # 设置词云属性 color_mask = imread('background.jfif') wordcloud = WordCloud(font_path="simhei.ttf", # 设置字体可以显示中文 background_color="white", # 背景颜色 max_words=100, # 词云显示的最大词数 mask=color_mask, # 设置背景图片 max_font_size=100, # 字体最大值 random_state=42, width=1000, height=860, margin=2,# 设置图片默认的大小,但是如果使用背景图片的话, # 那么保存的图片大小将会按照其大小保存,margin为词语边缘距离 ) # 生成词云, 可以用generate输入全部文本,也可以我们计算好词频后使用generate_from_frequencies函数 word_frequence = {x[0]:x[1]for x in words_stat.head(100).values} print(word_frequence) word_frequence_dict = {} for key in word_frequence: word_frequence_dict[key] = word_frequence[key] wordcloud.generate_from_frequencies(word_frequence_dict) # 从背景图片生成颜色值 image_colors = ImageColorGenerator(color_mask) # 重新上色 wordcloud.recolor(color_func=image_colors) # 保存图片 wordcloud.to_file('output.png') plt.imshow(wordcloud) plt.axis("off") plt.show()