摘要: 转载自:http://hi.baidu.com/ncaoz/item/564975db8fcd6495260ae79e先声明一下,按照传统的定义,我还真不是数据分析高手,各种关联算法,只会最简单的一种(话说不少场合还算管用);各种挖掘技术,基本上一窍不通;各种牛逼的数据分析工具,除了最简单的几个免费统计平台之外,基本上一个都不会用。所以,各种高手高高手请随意BS,或自行忽略。这里说点高手不说的。 从微博段子说起,微博上关于数据分析有两个段子,我经常当作案例讲,第一个段子,说某投资商对某企业所属行业有兴趣,要做背景调查,甲是技术流,一周分析各种网上数据,四处寻找行业材料,天天熬夜,终于写出一份报 阅读全文
posted @ 2013-05-06 15:28 小白快跑 阅读(189) 评论(0) 推荐(0) 编辑
摘要: 转载自:http://hi.baidu.com/ncaoz/item/9bd5fa308f1bb7f3e7bb7a89最近安全的话题突然就爆了,几个月前我在公司内组织的安全培训的内容完全得到了验证。而稍早发的关于md5撞库和社工扫描库的博文简直就成了未卜先知。(罪过,真不是故意的,纯属巧合)。考虑到这个话题还是蛮多人在问,微博发不开,特此将一些培训中的观点整理出来,分享一下。1. 安全是技术人员的事情错!太多著名互联网公司因为客服,市场人员的安全意识疏忽,导致严重安全事故。安全意识必须是全员的,每一个接入公司网络的员工,每一个拥有公司邮件账号的员工,都应该具有基本的安全素质。2.安全就是严防死 阅读全文
posted @ 2013-05-06 15:27 小白快跑 阅读(410) 评论(0) 推荐(0) 编辑
摘要: 转自:http://hi.baidu.com/ncaoz/item/9bdefa308f1bb7f3e7bb7a84关于12306网站和清华某院长的微博言论,我做了一个小回复,说这玩意不难,2个人2周,40台服务器可以搞定。下面详细解释一下大概的思路。免费share一下,看看靠谱不靠谱。别人看到的是流量,我先看结构,这里的数据结构是相当简单的,主要满足的需求是1.车次查询(最常见的是起点站,终点站查询 和车次直接输入查询)+余票显示所谓的用户刷页面,绝大部分应该在这里。日均10亿pv(这个数字我先质疑一下,不过么关系,后面再说怎么处理),估计主要落在这个查询上。2.注册,登陆。每天过千万人次是 阅读全文
posted @ 2013-05-06 15:26 小白快跑 阅读(177) 评论(0) 推荐(0) 编辑