2014年1月8日

[转]Decide.com是怎么做商品价格预测的

摘要: Decide.com 是一家成立于2010 年的创业型公司,它提供的服务主要是告诉大家数码相机、电脑、智能手机、电视机等数码产品什么时候购买最划算。也许大家都有这样的经历,刚刚买的数码相机和电视机,马上就降价了,真是后悔不已。利用Decide.com 所提供的服务,就可以知道价格上涨和下降的时机,再买这些产品时就不会让自己后悔了。Decide.com 每天要从数百家网上商城中收集超过10 万条家电和数码产品的价格数据,同时还会搜索关于这些产品的博客和新闻报道,以获取是否会有新型号准备发售等信息。这些数据的数据量每天超过25GB,整体用于分析的数据量则高达约100TB。这些收集到的数据会被发送到 阅读全文

posted @ 2014-01-08 13:26 sambazhu 阅读(260) 评论(0) 推荐(0) 编辑

[转]FlightCaster如何预测飞机准点的

摘要: FlightCaster 创立于2009 年,它所提供的服务,是在航空公司发出正式通知6 小时之前,就能够对航班晚点做出预报。FlightCaster 的预报是基于交通统计局的数据、联邦航空局航空交通管制系统指令中心的警报、FlightStats(一个发布航班运营状况信息的网站)的数据、美国气象局的天气预报等所发布的。这些数据都是公开数据,有需要的话,任何人都可以获得。基于这些数据,FlightCaster 可以做出类似“正点概率为3%,轻微晚点(60 分钟以内)概率为14%,晚点60 分钟以上概率为83%”这样的预测。如果预报显示该航班有很大概率会晚点,还会给出相应的理由,如“目的地因暴雨天 阅读全文

posted @ 2014-01-08 13:24 sambazhu 阅读(769) 评论(0) 推荐(0) 编辑

(转)Hadoop的安全机制研究

摘要: 1.背景1.1 共享Hadoop集群当前大一点的公司都采用了共享Hadoop集群的模式,这种模式可以减小维护成本,且避免数据过度冗余,增加硬件成本。共享Hadoop是指:(1)管理员把研发人员分成若干个队列,每个队列分配一定量的资源,每个用户或者用户组只能使用某个队列中得资源;(2)HDFS上存有各种数据,有公用的,有机密的,不同的用户可以访问不同的数据。共享集群类似于云计算或者云存储,面临的一个最大问题是安全。1.2 几个概念安全认证:确保某个用户是自己声称的那个用户。安全授权:确保某个用户只能做他允许的那些操作User:Hadoop用户,可以提交作业,查看自己作业状态,查看HDFS上的文件 阅读全文

posted @ 2014-01-08 13:22 sambazhu 阅读(458) 评论(0) 推荐(0) 编辑

如何理解Bounce Rate和Exit Rate

摘要: 先说说两者的定义:1)Bounce Rate:从某个特定的页面进入网站的Visit中,有多少百分比什么都没有做(没有点击任何链接),然后就离开了网站(即关闭了这个特定的页面)。例如,你从搜索引擎上搜索“BounceRate”和“Exit Rate”的结果页面中访问我的这篇文章,但显然这篇文章没有引起你的任何兴趣,因此你关闭了这篇文章的浏览器窗口,这对我的网站和对这个页面而言就是一个Bounce。而所有这种Bounce掉的Visit除以总的Visit就是Bounce Rate。2)Exit Rate:“出站率”。Exit Rate的意思是,对某一个特定的页面而言,从这个页面离开网站的Visit占 阅读全文

posted @ 2014-01-08 12:03 sambazhu 阅读(1511) 评论(0) 推荐(0) 编辑

淘宝数据魔方技术架构解析

摘要: 转自:http://www.alidata.org/archives/1789淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲,数据产品的研发难度并不高;但在“海量”的限定下,数据产品的计算、存储和检索难度陡然上升。本文将以数据魔方为例,向大家介绍淘宝在海量数据产品技术 阅读全文

posted @ 2014-01-08 11:19 sambazhu 阅读(196) 评论(0) 推荐(0) 编辑

导航