博客园有人随笔总数10000+?
**数说博客园之----随笔总数 **
前两天在博客园首页的一个角落里发现一个有意思的链接:这个页面汇总了博客园积分前3000名的用户。
博客列表(按积分),这里列出了博客园的积分前三千名。恰好这阵子在折腾爬虫,就想着从这张页面上能不能发现一些有意思的东西,就有了这篇文章。
先看一张图:
随笔10000+
这张图告诉我们:有两个账号的随笔总数,达到了10000+,
截至2017-4-9,分别是:
Leo_wlCnBlogs,总数:15709,园龄7年3个月。
lexus,总数:12354,园龄十年。
随笔7000+
mengfanrong,总数:7164,8年9个月。
一路NET,总数:12354,8年5个月。
众数
50~300占了总数的2/3左右。
也就是说2000人的随笔量在这个范围。
100~200条占了总数的1/3。也就是说1000人的随笔量在这个范围。
至于随笔总数在0~10条,积分还在前3000名的大神,一般是把博客迁移了。
总结
上千的同志毕竟是少数,5000+的更是寥寥无几。写博客也是需要恒心的。
其实就像github的连击一样,写博客也是促进自己总结和提高的一种方式。同时也算给自己提个醒,保证不臭不长的情况下,撸起袖子加油写啊。
一些小点
提取一张页面的数据比较简单。就用常用的cheerio模块就够了。如果想把得到的数据转到excel中进行处理(数据量不是太大),需要借助node的fs模块对写入文件的数据进行格式转换。像下面这样:
这样在excel的数据=>自文本选项卡下面就能成功导入了。如图:
ps:我深深知道自己有点标题党了,这个不算爬虫😳下篇我会写点有技术含量的。。。
获取每位用户点击量最高的文章标题和链接
cnblogs-md-editor编辑器,用Markdown写博客就用它