大数据_学期规划(五个月)
- 基础阶段(第一个月)
1.1 MySQL基础
从传统关系型数据库入手,可以更加了解数据管理,为后面的学习打下基础
1.2 Linux基础
linux操作系统作为现在服务器的主流操作系统,掌握Linux的学习是必要的。掌握Linux日常命令,为数据开发打下坚实基础。
1.3 java基础
大部分大数据技术都是用Java或Scala编写的,学习Java是每一个大数据人的必备基础。
1.4 目标:
掌握MySQL数据库的使用
掌握Linux常用命令,为数据开发后续学习打下的良好基础
掌握Java语言基础,多线程和网络编程
- 大数据核心基础(2~3月)
2.1 Hadoop
hadoop作为大数据的文件系统,是大数据生态的底层基石,了解掌握Hadoop的原理与使用方法至关重要。
2.2 hive
hive作为Hadoop的一个数据仓库工具,能将存储在Hadoop中的数据进行查询,分析,还提供sql转化功能,相对与MySQL的作用,都得对hive进行调优,对Hadoop的分析,查询非常重要。
2.3 zookeeper
zookeeper作为大数据生态圈的“动物管理员”,主要的作用就是协调各组件,保证组件的安全,稳定运行。许多大数据组件也是依赖zookeeper,没有zookeeper就没有稳定的组件存在。
2.4 目标
掌握大数据的核心框架Hadoop以及其生态体系,完成HDFS、MapReduce及Yarn机制基本理解与使用.
掌握Hive的使用和调优.
- 大数据离线,实时处理与分析
3.1 Spark大数据处理
spark作为大规模数据处理而设计的计算引擎,行业80%的公司都在使用Spark对离线,实时数据分析与处理,是进入,离线实时大数据的必学的框架。
3.2 storm
storm作为大数据实时领域的免费开源的分布式计算系统,专门针对大数据实时计算而开发的,对进一步精化大数据实时处理技术有很大的帮助。
- 路线图