【大数据】Hadoop入门预告版
-
-
背景
-
当今世界,大数据无处不在,它影响到了我们的工作、生活和学习,并将继续施加更大的影响。
大数据用于描述这样的数据组,其规模超出了日常软件在可容忍期限内获取、管理和加工数据的能力。一些网络技术领先的公司持续地投资于昂贵的大数据技术,成效显著。大数据使得创新型公司变成了经营新方法的率先接受者,经营更为成功。通过大数据的分析挖掘,公司可以发现新的经营模式,对工艺加以改进。例如,在获悉消费者行为后,可以将发现用于某些改变,如降低成本或增加销售,就会产生价值。在任意大的数据组中应用统计方法可以发现有用信息,将这些信息商业化即可获益。
大数据时代一切在变,应对之策是改变一切。经营方式发生了变化——制定决策变得与开展行动深度融合;运用信息的方式发生了变化——从处在经营的边缘变成了处于所有方面的中心;技术发生了变化——从批处理到实时处理,从分割到融为一体;人们工作的方式发生了变化——从在命令和控制模式下运作到在合作环境下负责自己的信息和交互应用。
-
Hadoop是什么,为什么要学习Hadoop?
-
听多了大数据,还是不明白?!
对于追求技术的你来说,学习Hadoop就必不可少了,Hadoop已然已是大数据平台的事实标准。Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。 - 知识框架
-
-
1)云计算与大数据
2)Hadoop起源
3)Hadoop的特点
4)Hadoop架构简介
5)Hadoop生态系统
6)Hadoop发行版
7)Hadoop版本选择
8)Hadoop未来趋势