09 2012 档案
摘要:假如有如下保存url的文件all_urls:http://www.baidu.comhttp://www.sina.comhttp://www.baidu.comhttp://www.sohu.comhttp://www.baidu.comhttp://www.sina.com想统计不同url出现的次数,并按照从大到小的顺序排列,只需一行简单的shell脚本就可以了:cat all_urls|sort|uniq -c |sort -k1 -nr|awk '{print $2}'结果如下:http://www.baidu.comhttp://www.sina.comhttp://
阅读全文
摘要:转一篇文章,学到了很多东西,而且自己稍微贡献了点点内容。原帖地址:http://qing.weibo.com/1639780001/61bd0ea1330025sq.html-------------分割线,版权归原作者所有,有想投简历的也请直接找原作者--------------Update: 更新了数据持久化和一致性保证相关的内容,多谢 @lihan_harry @郑环Zheng @51刘达 等同学的提醒。Update2: 更新了 对于weibo_id key的优化,使用前缀压缩,可以节省近一半的空间。 感谢 @吴廷彬 @drdrxp 的建议!Update3: 更新了 对于value 使用
阅读全文
摘要:在上一篇blog(Twitter背后的开源技术)中,Twitter主管开源的ManagerChris Aniszczyk为大家介绍了Twitter使用开源软件的情况。同时,也作为其在LinuxCon主题演讲《The open source technology behind a Tweet.》的预告。LinuxCon已经结束,现在可以更加全面的窥视Twitter对开源软件的使用情况,以及一个tweet是如何完成其生命之旅的。 下文是对《How Twitter tweets your tweets with open source》一文的摘抄及翻译,原文请点击这里。 1.Twit...
阅读全文