Hadoop 的部署适用性(网上资料http://www.linuxidc.com/Linux/2013-10/92141.htm)

近些年,Hadoop和“走向大数据分析引擎”一样,受到颇多赞誉。对很多人来说,Hadoop就意味着大数据技术。但其实开源的分布式处理框架未必能解决所有的大数据问题。这就要求想要部署Hadoop的公司慎重考虑——什么时候应用Hadoop,什么时候应用其他产品。

举例来讲,用Hadoop处理大规模无结构数据或半结构数据可以说绰绰有余。但它处理小数据集的速度却鲜为人知。而这一点就限制了Hadoop在Metamarkets集团的应用。Metamarkets集团位于旧金山,为在线广告提供实时市场营销分析。

Metamarkets CEO Michael Driscoll透露,在时间不紧的情况下,公司使用Hadoop处理庞大的分布式数据,包括运行日终报表以回顾一天的交易额,或浏览几个月前的历史数据。

但在其提供给客户的核心业务——运行实时分析过程中,Metamarkets并没有用到Hadoop。Driscoll认为最佳的方法是在一个数据 库中运行批处理作业查看每一个文件。归根结底,这是一种取舍:为了在数据点之间建立深度关联,Hadoop牺牲了速度。Driscoll表示:“使用 Hadoop就像交了个笔友,你写封信给他,寄过去,过几天才得到回复。这和(短信)或邮件的体验相去甚远。”

10gen公司的产品营销部经理、同时也是MongoDB NoSQL 数据库开发者Kelly Stirman表示,在线上,快速的反应是至关重要的,而Hadoop则受到时间的掣肘。例如,像产品推荐引擎这样的在线分析应用,依赖的是对少量信息的 快速处理,但Hadoop却不能有效的做到这一点。

不考虑置换数据库

因为开源技术大大降低了技术成本,所以或许有些企业考虑报废传统数据仓库,去选择Hadoop集群。但IDC公司的市场研究分析师Carl Olofson则认为,这两者根本没有可比性。

Olofson表示,关系数据库为大多数数据仓库提供动力,它用于容纳一段时间内以固定频率汇入的数据流,比如日常业务流程中的交易记录。另一方面,Hadoop擅长的是处理大量累积数据。

相关阅读

Hadoop 2.0 安装向导 (0.23.x) http://www.linuxidc.com/Linux/2012-05/61463.htm

Hadoop 1.2.1 单节点安装(Single Node Setup)步骤 http://www.linuxidc.com/Linux/2013-08/89377.htm

CentOS上安装Hadoop http://www.linuxidc.com/Linux/2013-08/88600.htm

Ubuntu 12.04安装Hadoop http://www.linuxidc.com/Linux/2013-08/88187.htm

CentOS 6.3 x86_64安装与配置Hadoop-1.0 http://www.linuxidc.com/Linux/2013-07/87959.htm

Hadoop入门--Hadoop2伪分布式安装 http://www.linuxidc.com/Linux/2013-06/86403.htm

Hadoop2.2.0单节点安装及测试 http://www.linuxidc.com/Linux/2013-10/91911.htm

posted on 2013-12-17 16:35  无觉-李敏  阅读(220)  评论(0编辑  收藏  举报