大数据工程师成长路线
Hadoop生态体系架构
1、Linux系统的安装和操作;
2、熟练掌握Shell脚本语法;
3、IDEA、Maven等开发工具的使用;
4、Hadoop组成、安装、架构和源码深度解析,以及API的熟练使用;
5、Hive的安装部署、内部架构、熟练使用其开发需求以及企业级调优;
6、Zookeeper的内部原理、选举机制以及大数据生态体系下的应用;
7、Flume的架构原理、组件自定义、监控搭建,熟练使用Flume开发实战需求;
8、Kafka的安装部署以及框架原理,重点掌握Kafka的分区分配策略、数据可靠性、数据一致性、数据乱序处理、零拷贝原理、高效读写原理、消费策略、再平衡等内容;
9、统筹Hadoop生态下的Hadoop、Flume 、Zookeeper、Kafka、DataX、MaxWell等诸多框架,搭建数据采集系统,熟练掌握框架结构和企业级调优手段;
Spark生态体系架构
1、park的入门安装部署、Spark Core部分的基本API使用熟练、RDD编程进阶、累加器和广播变量的使用和原理掌握、Spark SQL的编程掌握和如何自定义函数、Spark的内核源码详解(包括部署、启动、任务划分调度、内存管理等)、Spark的企业级调优策略;
2、DophineScheduler的安装部署,熟练使用进行工作流的调度执行;
3、全面了解数据仓库建模理论,充分熟悉电商行业数据分析指标体系,快速掌握多种大数据技术框架,了解认识多种数据仓库技术模块;
4、HBase和Phoenix的部署使用、原理架构讲解与企业级优化;
5、开发工具Git&Git Hub的熟练使用;
6、Redis的入门、基本配置讲解、jedis的熟练掌握;
7、ElasticSearch的入门安装部署及调优;
8、充分理解用户画像管理平台的搭建及使用、用户画像系统的设计思路,以及标签的设计流程及应用,初步了解机器学习算法;
9、项目实战。贴近大数据的实际处理场景,全方面设计实战项目,能够更加全面的掌握大数据需求解决方案,全流程参与项目打造,短时间提高学生的实战水平,对各个常用框架加强认知,迅速累积实战经验;
Flink生态体系架构
1、练掌握Flink的基本架构以及流式数据处理思想,熟练使用Flink多种Soure、Sink处理数据,熟练使用基本API、Window API 、状态函数、Flink SQL、Flink CEP复杂事件处理等;
2、使用Flink搭建实时数仓项目,熟练使用Flink框架分析计算各种指标;
3、ClickHouse安装、使用及调优;
4、项目实战。贴近大数据的实际处理场景,多维度设计实战项目,能够更广泛的掌握大数据需求解决方案,全流程参与项目打造,短时间提高学生的实战水平,对各个常用框架加强认知,迅速累积实战经验;
5、可选掌握推荐和机器学习项目,熟悉并使用系统过滤算法以及基于内容的推荐算法等;
6、采用阿里云平台全套大数据产品重构电商项目,熟悉离线数仓、实时指标的阿里云解决方案;
项目实战
1)youTube项目:Hive
2)微博项目:HBase
3)电商数据分析平台:Spark
4)电信客服系统:Hadoop
5)滴滴系统:Kafka+Storm
6)大数据离线平台:Hadoop+Flume+Hive+HBase
7)电商数仓项目:Hadoop+Zookeeper+Hive+Flume+Kafka+Spark
8)电商推荐系统(类似于电影推荐系统):Hadoop+ZK+Flume+Kafka+Spark+Redis+MongoDB
9)电影推荐系统(2019版也有个一样的电影推荐系统,代码应该类似):Hadoop+ZK+Flume+Kafka+Spark+Redis+MongoDB+ElasticSearch
10)基于阿里云搭建数据仓库(离线、实时):ECS(日志生产服务器)+Flume+DataHub +MaxCompute/DataWorks +RDS(业务数据)+QuickBI
11)机器学习和推荐系统:项目讲解为上面的电影推荐系统类似
12)实时项目(电商数仓实时):Hive+Kafka+Redis+Nginx+ElasticSearch+Canal
13)手机APP信息统计:Hadoop+ZK+Flume+Kafka+Hive+HBase+Spark(有两个不同版本,详细看项目文档)
14)新闻大数据实时分析可视化系统(私人提供,参考云盘):Hadoop+Zookeeper+Flume+Kafka+Hive+HBase+Spark+Echarts+Hue+MySQL
15)在线教育项目:Hadoop+Flume+Kafka+Hive+MySQL+Spark
16)基于Flink的电商用户行为数据分析:Kafka+Flink

浙公网安备 33010602011771号