大数据开发初学者必看的学习路线

大数据时代的出现简单的讲是海量数据同完美计算能力结合的结果,确切的说是移动互联网、物联网产生了海量的数据,大数据计算技术完美地解决了海量数据的收集、存储、计算、分析的问题。当我们最初谈大数据的时候,谈的最多的可能是用户行为分析,即通过各种用户行为,包括浏览记录,消费记录,交往和购物娱乐,行动轨迹等各种用户行为产生的数据。由于这些数据本身符合海量,异构的特征,同时通过分析这些数据之间的关联性容易匹配某些结果现象。

当然大数据的价值远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。那么回归主题,如何进行大数据领域,学习线路是什么?

第一阶段:大数据基础Java语言基础阶段

详细知识点介绍:

Java开发介绍:Java的发展历史,Java的应用领域,Java语言的特性,Java面向对象,Java性能分类, 搭建Java环境,Java工作原理

熟悉Eclipse开发工具:Eclipse简介与下载,安装Eclipse的中文语言包, Eclipse的配置与启动,Eclipse工作台与视图,“包资源管理器”视图, 使用Eclipse, 使用编辑器编写程序代码

Java语言基础:Java主类结构,基本数据类型, 变量与常量,Java运算符, 数据类型转换, 代码注释与编码规范,Java帮助文档

Java流程控制:复合语句, 条件语句,if条件语句, switch多分支语句,while循环语句, do…while循环语句, for循环语句

Java字符串:String类, 连接字符串, 获取字符串信息, 字符串操作, 格式化字符串, 使用正则表达式,字符串生成器

Java数组与类和对象:数组概述,一维数组的创建及使用,二维数组的创建及使用,数组的基本操作,数组排序算法,Java的类和构造方法、Java的对象,属性和行为

数字处理类与核心技术:数字格式化与运算,随机数 与大数据运算,类的继承与Object类,对象类型的转换,使用instanceof操作符判断对象类型,方法的重载与多态,抽象类与接口

I/O与反射、多线程:流概述与File类,文件 输入/输出流,缓存 输入/输出流, Class类与Java反射,Annotation功能类型信息,枚举类型与泛型,创建、操作线程与线程安全

Swing程序与集合类:常用窗体,标签组件与图标,常用布局管理器 与面板,按钮组件 与列表组件,常用事件监听器,集合类概述,Set集合 与Map集合及接口

PC端网站布局:HTML基础,CSS基础,CSS核心属性,CSS样式层叠,继承,盒模型,容器,溢出及元素类型,浏览器兼容与宽高自适应,定位,锚点与透明,图片整合,表格,CSS属性与滤镜,CSS优化HTML5+CSS3基础:HTML5新增的元素与属性, CSS3选择器,文字字体相关样式,CSS3位移与变形处理,CSS3 2D、3D转换与动画,弹性盒模型,媒体查询,响应式设计

WebApp页面布局项目:移动端页面设计规范,移动端切图,文字流式/控件弹性/图片等比例的布局,等比缩放布局,viewport/meta,rem/vw的使用,flexbox详解,移动web特别样式处理

原生Java功能开发:原生Java功能开发,Java使用及运作原理,Java基本语法,Java内置对象,事件,事件原理,Java基本特效制作,cookie存储,正则表达式

Ajax异步交互:Ajax概述与特征,Ajax工作原理,对象,同步与异步,Ajax异步交互,Ajax跨域问题,Ajax数据的处理,基于WebSocket和推送的实时交互

JQuery应用:各选择器使用及应用优化,Dom节点的各种操作,事件处理、封装、应用,jQuery中的各类动画使用,可用性表单的开发,jQuery Ajax、函数、缓存, jQuery编写插件、扩展、应用,理解模块式开发及应用

数据库:Mysql数据库,JDBC开发,连接池和DBUtils,Oracle介绍,MongoDB数据库介绍,apache服务器/Nginx服务器,Memcached内存对象缓存系统

JavaWeb开发核心:XML技术,HTTP协议,Servlet工作原理解析,深入理解Session与Cookie,Tomcat的系统架构与设计模式,JSP语法与内置对象,JDBC技术,大浏览量系统的静态化架构设计

JavaWeb开发内幕:深入理解Web请求过程,Java I/O的工作机制,Java Web中文编码,Javac编译原理,class文件结构,ClassLoader工作机制,JVM体系结构与工作方式,JVM内存管理

第二阶段:Linux系统Hadoop生态体系

详细知识点介绍:

Linux体系:VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程,了解机架服务器,采用真实机架服务器部署linux,Linux的常用命令:常用命令的介绍、常用命令的使用和练习,Linux系统进程管理基本原理及相关管理工具如ps、pkill、top、htop等的使用,Linux启动流程,运行级别详VI、VIM编辑器:VI、VIM编辑器的介绍、VI、VIM扥使用和常用快捷键, Linux用户和组账户管理:用户的管理、组管理,Linux磁盘管理,lvm逻辑卷,nfs详解,Linux系统文件权限管理:文件权限介绍、文件权限的操作,Linux的RPM软件包管理:RPM包的介绍、RPM安装、卸载等操作,yum命令,yum源搭建,Linux网络:Linux网络的介绍、Linux网络的配置和维护,Shell编程,Shell的介绍、Shell脚本的编写

Linux上常见软件的安装:安装JDK、安装Tomcat、安装mysql,web项目部署

Hadoop离线计算:Hadoop生态环境介绍,Hadoop云计算中的位置和关系,国内外Hadoop应用案例介绍,国内外Hadoop应用案例介绍,Hadoop 概念、版本、历史,Hadoop 核心组成介绍及hdfs、mapreduce 体系结构,Hadoop 的集群结构,Hadoop 伪分布的详细安装步骤,通过命令行和浏览器观察hadoop,HDFS底层&& datanode,namenode详解&&shell&&Hdfs java api,Mapreduce四个阶段介绍,Writable,InputSplit和OutputSplit,Maptask,Shuffle:Sort,Partitioner,Group,Combiner,Reducer,Mapreducer案例:二次排序, 倒排序索引, 最优路径,电信数据挖掘之-----移动轨迹预测分析(中国棱镜计划),社交好友推荐算法,互联网精准广告推送算法,Hadoop离线计算大纲,阿里巴巴天池大数据竞赛 《天猫推荐算法》,Mapreduce实战pagerank算法,Hadoop2.x集群结构体系介绍,Hadoop2.x集群搭建,NameNode的高可用性(HA),HDFS Federation,ResourceManager 的高可用性(HA),Hadoop集群常见问题和解决方法,Hadoop集群管理

分布式数据库Hbase:Hbase简介,HBase与RDBMS的对比,数据模型,系统架构,HBase上的MapReduce,表的设计,集群的搭建过程讲解,集群的监控,集群的管理,HBase Shell以及演示, Hbase 树形表设计,Hbase 一对多 和 多对多 表设计,Hbase 微博 案例,Hbase 订单案例,Hbase表级优化,分布式数据库Hbase,Hbase 写数据优化,Hbase 读数据优化Hbase API操作,hbase mapdreduce 和hive 整合数据仓库Hive:数据仓库基础知识,Hive定义,Hive体系结构简介,Hive集群,客户端简介,HiveQL定义,HiveQL与SQL的比较,数据类型,外部表和分区表,ddl与CLI客户端演示,dml与CLI客户端演示,select与CLI客户端演示,Operators 和 functions与CLI客户端演示,Hive server2 与jdbc,用户自定义函数(UDF 和 UDAF)的开发与演示,Hive 优化,serde

数据迁移工具Sqoop:Sqoop简介以及使用,Sqoop shell使用,Sqoop-import,DBMS-hdfs,DBMS-hive,DBMS-hbase,Sqoop-export

Flume分布式日志框架:flume简介-基础知识,flume安装与测试,flume部署方式,flume source相关配置及测试,flume sink相关配置及测试,flume selector 相关配置与案例分析,flume Sink Processors相关配置和案例分析,flume Interceptors相关配置和案例分析,flume AVRO Client开发,flume 和kafka 的整合

第三阶段:分布式计算框架Spark&Storm生态体系

 

详细知识点介绍:

Scala编程语言:scala解释器、变量、常用数据类型等,scala的条件表达式、输入输出、循环等控制结构,scala的函数、默认参数、变长参数等,scala的数组、变长数组、多维数组等,scala的映射、元组等操作,scala的类,包括bean属性、辅助构造器、主构造器,scala的对象、单例对象、伴生对象、扩展类、apply方法等,scala的包、引入、继承等概念,scala的特质,scala的操作符,scala的高阶函数,scala的集合,scala数据库连接

Spark大数据处理:Spark介绍,Spark应用场景,Spark和Hadoop MR、Storm的比较和优势, RDD,Transformation,Action,Spark计算PageRank,Lineage, Spark模型简介,Spark缓存策略和容错处理,宽依赖与窄依赖,Spark配置讲解,Spark集群搭建,集群搭建常见问题解决,Spark原理核心组件和常用RDD,数据本地性,任务调度,DAGScheduler,TaskScheduler,Spark源码解读,性能调优,Spark和Hadoop2.x整合:Spark on Yarn原理

Spark—Streaming大数据实时处理:Spark Streaming:数据源和DStream ,无状态transformation与有状态transformation,Streaming Window的操作,sparksql 编程实战,spark的多语言操作,spark最新版本的新特性

Spark—Mlib机器学习:Mlib简介,Spark MLlib组件介绍,基本数据类型,回归算法,广义线性模型,逻辑回归,分类算法,朴素贝叶斯,决策树,随机森林,推荐系统,聚类

Spark—GraphX 图计算:二分图,构造图, 属性图,PageRank3.5.2 概述 构造图,属性图,PageRank

storm技术架构体系:项目技术架构体系,Storm是什么,Storm架构分析,Storm编程模型、Tuple源码、并发度分析,Transformation,Maven环境快速搭建,Storm WordCount案例及常用Api,Storm+Kafka+Redis业务指标计算,3.6.9 Storm集群安装部署,Storm源码下载编译

Storm原理与基础:Storm集群启动及源码分析,Storm任务提交及源码分析,Storm数据发送流程分析,Strom通信机制分析浅谈,Storm消息容错机制及源码分析,Storm多stream项目分析,Storm Trident和传感器数据,实时趋势分析,Storm DRPC(分布式远程调用)介绍,Storm DRPC实战讲解,编写自己的流式任务执行框架

消息队列kafka:消息队列是什么,kafka核心组件,kafka集群部署实战及常用命令,kafka配置文件梳理,kafka JavaApi学习,kafka文件存储机制分析,kafka的分布与订阅,kafka使用zookeeper进行协调管理Redis工具:nosql介绍,redis介绍,redis安装,客户端连接,redis的数据功能,redis持久化,redis应用案例

zookeeper详解:zookeeper简介,zookeeper的集群部署,zookeeper的核心工作机制,zookeeper的命令行操作,zookeeper的客户端API,zookeeper的应用案例,zookeeper的原理补充

第四阶段:大数据项目实战

第五阶段:大数据分析方向AI(人工智能)

详细知识点介绍:

Python编程&&Data Analyze工作环境准备&数据分析基础:介绍Python以及特点,Python的安装,Python基本操作(注释、逻辑、 字符串使用等),Python数据结构(元组、列表、字典),使用Python进行批量重命名小例子,Python常见内建函数,更多Python函数及使用常见技巧,异常,Python函数的参数讲解,Python模块的导入,网络爬虫案例,数据库连接,以及pip安装模块,Mongodb基础入门,讲解如何连接mongodb,Python的机器学习案例,AI&&机器学习&&深度学习概论,工作环境准备,数据分析中常用的Python技巧,Pandas进阶及技巧,数据的统计分析

数据可视化:数据可视化的概念,图表的绘制及可视化,动画及交互渲染,数据合并、分组

Python机器学习:机器学习的基本概念,ML工作流程,Python机器学习库scikit-learn,KNN模型,线性回归模型,逻辑回归模型,支持向量机模型,决策树模型,超参数&&学习参数,模型评价指标,交叉验证,机器学习经典算法,朴素贝叶斯,随机森林,GBDT

图像识别&&神经网络:图像操作的工作流程,特征工程,图像特征描述,AI网络的描述,深度学习,TensorFlow框架学习,TensorFlow框架卷积神经网络(CNN)

自然语言处理&&社交网络处理:Python文本数据处理,自然语言处理及NLTK,主题模型,LDA,图论简介,网络的操作及数据可视化

posted @ 2018-11-15 15:14  千锋程序员日记  阅读(1264)  评论(0编辑  收藏  举报