大数据

数据的存储计算（分布式存储，分布式计算）

Hadoop:基于java开发：

（体系结构，原理，编程）HDFS（分布式存储）MAPREDUCE（计算）

数据分析引擎HIVE PIG

数据采集引擎：sqoop flume

管理工具： hue:WEB管理工具

zookeeper:实现HAdoop的HA

OOZIE:工作流引擎

Spark:基于sclla语言，SCALA基于java语言

scala语言

spark core:数据计算，基于内存数据计算

spark sql--类似于oracle中的sql语句

spark streaming:进行实时计算（流式计算）

apache storm:实时计算

NOSQL：REDIS基于内存的数据库

GFS：google file system

分布式系统：网盘

GFS:没有硬盘，数据只存在内存中，提高冗余度，

HDFS默认为3(同一数据保存3份）

水平复制：（提高效率）

上传或下载：数据块为单位，HADOOP1.X:64m，2.X:128m

MAPREDUCE:把大任务拆分成小任务，再汇总

posted @ 2020-03-29 21:02 myrj 阅读(131) 评论(0) 收藏举报

刷新页面返回顶部