大数据
数据的存储 计算(分布式存储,分布式计算)
Hadoop:基于java开发:
(体系结构,原理,编程)HDFS(分布式存储)MAPREDUCE(计算)
数据分析引擎HIVE PIG
数据采集引擎:sqoop flume
管理工具: hue:WEB管理工具
zookeeper:实现HAdoop的HA
OOZIE:工作流引擎
Spark:基于sclla语言,SCALA基于java语言
scala语言
spark core:数据计算,基于内存数据计算
spark sql--类似于oracle中的sql语句
spark streaming:进行实时计算(流式计算)
apache storm:实时计算
NOSQL:REDIS基于内存的数据库
GFS:google file system
分布式系统:网盘
GFS:没有硬盘,数据只存在内存中,提高冗余度,
HDFS默认为3(同一数据保存3份)
水平复制:(提高效率)
上传或下载:数据块为单位,HADOOP1.X:64m,2.X:128m
MAPREDUCE:把大任务拆分成小任务,再汇总