Hadoop Illuminated——Chapter3 Why do I Need Hadoop?

2019-11-25

22:13:53

 

 GitHub:https://github.com/elephantscale/HI-labs/tree/master/hadoop-admin

作者Github:https://github.com/markkerzner

作者Github:https://github.com/sujee

英语好句:It is a minuscule token of thanks from both of us to the Hadoop community

这是我们两个人对Hadoop社区的感谢的微不足道的象征


 

Why do I Need Hadoop?

3.1. Hadoop provides storage for Big Data at reasonable cost

1.Cloudera的一项研究表明,企业通常每度花费25,000至50,000美元

每年万亿字节。
有了Hadoop,每年每太字节的成本下降到几千美元。

硬件变得越来越便宜,这种成本持续下降。

3.2. Hadoop allows to capture new or more data

2.有时组织不会捕获一种数据,因为存储它的成本太高了。
以来

Hadoop以合理的成本提供存储,可以捕获和存储此类数据。

一个示例是网站点击日志。
由于这些日志的数量可能很高,因此数量不多

组织捕获了这些。
现在,有了Hadoop,就可以捕获和存储日志

3.3. With Hadoop, you can store data longer

为了管理存储的数据量,公司会定期清除较旧的数据。
例如仅日志

可以存储最近3个月内的日志,并删除较旧的日志。
使用Hadoop,可以存储

历史数据更长。
这样就可以对较旧的历史数据进行新的分析。

例如,从网站获取点击日志。
几年前,这些日志存储了很短的时间

是时候计算流行网页等静态数据了。
现在使用Hadoop,可以存储这些点击日志

更长的时间

3.4. Hadoop provides scalable analytics

如果我们无法分析它们,那么存储所有数据毫无意义。
Hadoop不仅提供分布式

存储,也可以进行分布式处理。
这意味着我们可以并行处理大量数据。

Hadoop的计算框架称为Map Reduce。
已经证明Map Reduce的规模

Peta字节。

3.5. Hadoop provides rich analytics

Native Map Reduce支持将Java作为主要编程语言。
其他语言,例如Ruby,Python

和R也可以使用。

当然,编写自定义Map Reduce代码不是分析Hadoop中数据的唯一方法。
更高层次

可以使用Map Reduce。
例如,名为Pig的工具可以像数据流语言一样使用英语并进行翻译

他们进入Map Reduce。
另一个工具Hive,接受SQL查询并使用Map Reduce运行它们。

商业智能(BI)工具可以提供更高级别的分析。
一些BI工具可以工作

Hadoop并分析存储在Hadoop中的数据。
有关支持Hadoop的BI工具的列表,请参阅此

本章:第13章,用于Hadoop和大数据的商业智能工具[52]


 

 

 

 

 

 

 

posted @ 2019-11-25 22:44  JasonPeng1  阅读(157)  评论(0编辑  收藏  举报