【自研项目】热帖下的用户行为分析【持续优化】
因为某个话题在网上引发围观,看到如此火爆,就想把数据拿下来做分析。
第一天搞定抓包,工具选择、工具使用和简单的调试。
克服困难:网络代理配置
输出工具:花瓶、安卓模拟器
第二天搞定采集,数据异常值处理
克服困难:json嵌套解析
输出文档:多个excel文档
第三天搞定数据分析,分析数据指标
克服困难:map、apply、lambda得函数使用
输出文档:pandas.DataFrame
第四天搞定出图,主要有pyecharts、bokeh、matplotlib
克服困难:调参、数据格式等
输出文档:png、html
第五天优化,主要有作图风格,补充指标【语义情感分析】
克服困难:命名规范、调用腾讯云,情感分析接口调试
输出文档:前面所有文档大更新
输出成果如下:
这是本人完整记录自研过程,最晚做到凌晨1点,每天除了日常生活,几乎全部投入精力。
2020-06-25更新
matplotlib四象限散点图,文字防重叠,以及文字标签脱敏显示
以前觉得这个做不了,时间怕花时间去研究,为自己懒找借口。
真要做成事,方法总比困难多。
-----6月26日更新-----
增加大屏效果,同时优化部分图表效果
待解决问题:
1、屏幕自适应
2、分屏及轮播
3、嵌入自定义图片
-------------------------------
********厚德达理,励志勤工********
-------------------------------