对排名前3000位博主进行数据分析
数据分析
热门博主
这里是在2017-05-20晚上爬取按照积分排名前3000位的博主,本文是在3000条博主的用户信息,23万条博主的活动信息的基础上进行数据分析的,此数据基于学习的目的,不用于商业目的;
本来打算对具体动态信息做个排名,不过考虑到可能会涉及隐私,所以放弃,全文分析均为宏观分析;
各个博主的出生地
3000位博主中,只有546位填了家乡,比例为18%;
可以看的出来,湖北和河南的人数最多,广东四川北京山东属于第二梯队;
各个博主的现居住地
3000位博主中,只有802位填了现在的居住地,比例为27%;
可以发现,这个时候,博主的工作地点变成了IT比较发达的省份,像是北京,广东,浙江,上海,四川;
各个园龄所占的人数
大部分在博客园的时间在4-12年的时间,其中5年最多
工作职位的统计
206人填了信息,比例为7%
这里取的是排名前20位的职位,其中因为描述的不同导致结果存在些许不同,但可以发现其中软件工程师居多
工作单位的统计
116人填了信息,5个腾讯,2个Autodesk,2个武汉大学,其余均不重复,其中100人在工作,16人在大学
上一次发布博客的时间
1258个日子,最近一天为2017-05-20,最远一天为2005-04-14
其中越靠后表明上一次发布博客的时间离现在越近,不过不难发现依然存在挺多的人上次发布博客的时间离现在比较远。
多少人进行了迁移(出生地跑到现居住地)
395人,此方法是按照出生地不等于现在居住地计算得出
结婚
107人填了信息,占整体比例为4%
单身比例最高,占了将近2/3,已婚次之
动态信息分布
发表话题和博客占用比例大体相当
分数平均值
以300为单位
可以发现,前300名大幅拉开和后面的差距
博客数量和分数、粉丝的关系
博客数量和分数并不是一个线性关系,表明并不是发表的博客数量越高分数就越高,不过貌似粉丝数量和分数存在些许关系。
总结
这个项目是我在工作之余花了一周的时间一变学习一边写出来的,其利用Scrapy爬虫框架来实现,过程中也走了些弯路,基本都是靠不停的查找资料来解决问题。项目并不困难,数据分析也比较简单,在后面可以加上词频分析等等,不过因为最近要开始找工作了,所以暂时要放置一段时间了。
文中如果有错误,请及时指出。

关注公众号:数据结构与算法那些事儿,每天一篇数据结构与算法
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 零经验选手,Compose 一天开发一款小游戏!
· 一起来玩mcp_server_sqlite,让AI帮你做增删改查!!