大数据开发需要掌握哪些技术?
是做什么的?
大数据的三大就业方向
大数据开发工程师:建立,测试和维护数据生态系统。
大数据分析工程师:根据过去和当前的数据创建临时和定期报告,从而找到解决业务问题的答案。
大数据科学家:分析数据,从而建立预测算法。
大数据开发的两大分类
第一类是编写一些Hadoop、Spark的应用程序;
第二类是开发大数据处理系统或对开源系统的二次开发(技术含量高,通常大公司才有)。
需要哪些技术?
阶段一
编程语言:Java、Python
操作系统:Linux
基础框架:Hadoop(核心设计:HDFS 和 MapReduce)
分布式数据库:Hbase(Hadoop databse,随机实时读写大数据,NoSQL)
数据仓库:Hive(离线读写大数据集,SQL)
日志管理服务:Flume(高效地收集、汇总、转移大量的日志数据)
分布式协调服务器:ZooKeeper(集中维护配置信息、提供分布式同步、提供组服务)
分布式事件流平台:Kafka(用于实现高性能数据管道、流分析、数据继承、关键任务应用程序)
阶段二
编程语言:Scala
統一分析引擎:Spark(处理大规模数据)
分布式处理引擎:Flink(有状态地计算有界、无界的数据流)
分布式实时计算系统:Storm(实时分析、线上机器学习,持续计算,分布式RPC、ETL)