如何解决大数据的存储(大数据专题一)【多测师】
第一节:为什么要学习大数据?
1.目的:趋势
2.对比:Java开发和大数据开发、大数据开发比Java开发有前途
第二节:什么是大数据?
举例:
1.商品推荐:问题:(1)大量的订单如何存储? (2)大量的订单如何计算?
2.天气预报:问题:(1)大量的天气数据何如存储? (2)大量的天气数据如何计算?
什么是大数据,本质?
(1)数据的存储:分布式文件系统(分布式存储)
(2)数据的计算:分布式计算
第三节:Java和大数据是什么关系?
1.Hadoop:基于Java语言开发的
2.spark:基于Scala语言,Scala基于Java语言
第四节:学习大数据需要的基础和路线?
1.学习大数据需要的基础:Java基础(JavaSE) ---》类、继承、I/O、反射、泛型*****
Linux基础(Linux的操作) ---》创建文件、目录、vim编辑
2.学习路线:
(1)Java基础和Linux基础
(2)Hadoop的学习:体系结构、原理、编程
(*)第一阶段:HDFS、MapReduce、HBASE(nosql数据库)
(*)第二阶段:数据分析引擎 -----》hive和pig
数据采集引擎 -----》sqoop和flume
(*)第三阶段:HUE:web管理工具
zookeeper:实现Hadoop的HA
oozie:工作流引擎
(3)spark的学习:
(*)第一个阶段:Scala编程语言
(*)第二个阶段:spark core ----》基于内存、数据的计算
(*)第三个阶段:spark SQL ----》类似Oracle中的SQL语句
(*)第四个阶段:spark streaming ---》进行实时计算(流失计算):比如自来水工厂
(4)Apache storm:类似spark streaming ---》进行实时计算(流失计算):比如自来水工厂
(*)nosql:Redis基于内存的数据库