初识Hadoop

大数据特点

4V：volume variety velocity value

海量性（volume）：大数据的数据量很大，每天我们的行为都会产生大批量数据

多样性（variety）：大数据的类型多种多样，比如视频、音频和图片都属于数据

高速性（velocity）：大数据要求处理速度快，比如淘宝双十一需要实时显示交易数据

价值性（value）：大数据产生的价值密度低，意思是说大部分数据没有参考意义，少部分数据会形成高价值

Apache开源软件基金会开发了运行在大规模普通服务器上，用于大数据存储、计算、分析的分布式存储系统和分布式计算框架--Hadoop。其两大核心如下：

HDFS（Hadoop Distributed File System，分布式文件系统）：是Hadoop中的核心组件之一，除了可以保存海量数据，还具有高可靠性、高扩展性和高吞吐率的特点。
MapReduce：属于分布式计算框架，一般用于对海量数据的计算，它的特点是易于编程、高容错和高扩展性等优点。另外，MapReduce可以独立于HDFS使用。

　　总结来说，hadoop中的核心HDFS为海量数据提供了存储，而MapReduce则为海量数据提供了计算服务。

大数据计算模式：

大数据技术框架主要包含6个部分，分别是：

数据收集、数据存储、资源管理、计算框架、数据分析、数据展示

每部分包括的具体技术：

posted @ 2019-09-21 13:22 孙晨c 阅读(195) 评论(0) 收藏举报

刷新页面返回顶部