全文检索、数据分析挖掘、推荐系统、广告系统、图像识别、海量存储、快速查询
l Hadoop介绍
n Hadoop来源与历史
n Hadoop版本
n Hadoop开源与商业
l HDFS系统架构
n NameNode功能与原理
n DataNode功能与原理
n SecondaryNameNode功能与原理
n HDFS读取写入流程
n 理解HDFS Block
l Hadoop权限与安全
|
l Hadoop运行模式介绍
l 实验:
n 搭建单机版、伪分布式、分布式集群
n Hadoop命令使用
n 运行MapReduce Job
l Hadoop运维案例介绍
l HDFS配置文件说明
|
|
第二天 |
l 集群规划
l 集群监控、告警
l 集群管理
l 集群配置最佳实践
|
l MapReduce简介
l JobTracker、TaskTracker功能
l Hadoop HDFS API介绍
l Hadoop WebHDFS API介绍
l 实验
n 使用Hadoop HDFS API
|
第三天 |
l MapReduce流程详解
l MapReduce开发详解
l MapReduce开发最佳实践
l MapReduce 调优
l Hadoop Streaming开发详解
l Pig语言详解
|
l MapReduce系统参数说明
l 实验:
n 使用Java开发MapReduce程序
n 使用python开发MapReduce程序
n Pig开发MapReduce程序
|
第四天 |
l HBase简介和架构
HBase基本概念
HBase应用场景
HBase架构和核心模块介绍
HBase存储逻辑结构介绍
l HBase核心知识点
基本方法:Get/Put/Scan/Delete
列式存储核心:LSM
日志系统:WAL
底层存储:HFile
复制、备份:Replication
过渡期:RIT
分裂、合并:Split/Compact
负载均衡:Load Balance
|
l HBase高级应用简单介绍
批量记载:bulk load
监控系统:OpenTSDB
主键设计:key design
二级索引:secondary index
协处理器:Coprocessors
HBase安装、部署、启动
l 【动手操作】
集群下安装部署HBase
启动HBase,启动顺序 测试启动
HBase常用接口、金融、政府案例
l 【小组讨论】
thrift接口
案例(需求剖析、架构设计)
l Hive使用
hive架构,一些特性
hive hadoop 配置 hive 配置文件 client工具介绍 hive hql介绍 |
一、Hadoop入门,了解什么是hadoop |
1、 Hadoop产生背景 2、 Hadoop在大数据、云计算中的位置和关系 3、 国内外Hadoop应用案例介绍 4、 国内Hadoop的就业情况分析及课程大纲介绍 5、 分布式系统概述 6、 Hadoop生态圈以及各组成部分的简介 7、 Hadoop核心MapReduce例子说明 |
二、分布式文件系统HDFS,是数据库管理员的基础课程 |
1、 分布式文件系统DFS简介 2、 HDFS的系统组成介绍 3、 HDFS的组成部分详解 4、 副本存放策略及路由规则 5、 NameNode Federation 6、 命令行接口 7、 Java接口 8、 客户端与HDFS的数据流讲解 9、 HDFS的可用性(HA)
|
三、初级MapReduce,成为Hadoop开发人员的基础课程 |
1、 如何理解map、reduce计算模型 2、 剖析伪分布式下MapReduce作业的执行过程 3、 Yarn模型 4、 序列化 5、 MapReduce的类型与格式 6、 MapReduce开发环境搭建 7、 MapReduce应用开发 8、 更多示例讲解,熟悉MapReduce算法原理 |
四、高级MapReduce,高级Hadoop开发人员的关键课程 |
1、 使用压缩分隔减少输入规模 2、 利用Combiner减少中间数据 3、 编写Partitioner优化负载均衡 4、 如何自定义排序规则 5、 如何自定义分组规则 6、 MapReduce优化 7、 编程实战 |
五、Hadoop集群与管理,是数据库管理员的高级课程 |
1、 Hadoop集群的搭建 2、 Hadoop集群的监控 3、 Hadoop集群的管理 4、集群下运行MapReduce程序 |
六、ZooKeeper基础知识,构建分布式系统的基础框架 |
1、ZooKeeper体现结构 2、ZooKeeper集群的安装 3、操作ZooKeeper |
七、HBase基础知识,面向列的实时分布式数据库 |
1、 HBase定义 2、 HBase与RDBMS的对比 3、 数据模型 4、 系统架构 5、HBase上的MapReduce 6、表的设计 |
八、HBase集群及其管理 |
1、集群的搭建过程讲解 2、集群的监控 3、集群的管理 |
九、HBase客户端 |
1、 HBase Shell以及演示 2、Java客户端以及代码演示 |
十、Pig基础知识,进行hadoop计算的另一种框架 |
1、 Pig概述 2、 安装Pig 3、 使用Pig完成手机流量统计业务 |
十一、Hive,使用sql进行计算的hadoop框架 |
1、 数据仓库基础知识 2、 Hive定义 3、 Hive体系结构简介 4、 Hive集群 5、 客户端简介 6、 HiveQL定义 7、 HiveQL与SQL的比较 8、 数据类型 9、表与表分区概念 10、表的操作与CLI客户端演示 11、数据导入与CLI客户端演示 12、查询数据与CLI客户端演示 13、数据的连接与CLI客户端演示 14、用户自定义函数(UDF)的开发与演示 |
十二、Sqoop,hadoop与rdbms进行数据转换的框架 |
1、配置Sqoop 2、使用Sqoop把数据从mysql导入到HDFS中 3、使用Sqoop把数据从HDFS导出到mysql中 |
十三、大数据实战 |
互联网大数据收集、存储、数据使用完整架构和操作 |
Hadoop背景介绍 |
HDFS使用 |
Hadoop生态系统概览 |
HDFS命令行工具 |
Hadoop分布式文件系统(HDFS) |
启动、停止HDFS服务 |
什么是HDFS |
如何查看HDFS日志 |
HDFS设计目标 |
查看HDFS Web控制台 |
HDFS系统特点 |
HDFS配置参数 |
HDFS工作原理 |
上机开发环境介绍 |
HDFS服务进程 |
HDFS开发 |
|
Java API详解 |
|
FuseHDFS |
|
WebHDFS Restful API |
|
上机练习 |
第二天上午 (9:00-12:00) |
第二天下午 (13:00-16:00) |
MapReduce分布式计算框架 |
MapReduce示例程序解析 |
什么是MapReduce |
MapReduce框架类库介绍 |
MapReduce服务 |
MapReduce实战,你的第一个MapReduce项目 |
MapReduce工作机制 |
项目需求简述 |
MapReduce调度管理 |
项目设计讨论 |
MapReduce参数设置 |
项目伪代码分析 |
启动、停止MapReduce服务 |
项目实现,上机练习 |
如何查看MapReduce日志 |
|
查看MapReduce Web控制台 |
|
第三天上午 (9:00-12:00) |
第三天下午 (13:00-16:00) |
MapReduce进阶实战 |
如何用其它语言开发MapReduce应用 |
项目性能优化 |
MapReduce常用算法(Sort、Index、Join、IF-IDF等)介绍 |
上机练习 |
Hadoop生态系统介绍 |
项目结果分类汇总 |
HBase入门 |
上机练习 |
利用Oozie对MapReduce任务进行调度 |
项目结果排序 |
利用Flume NG 和 Sqoop与各种数据源对接 |
上机练习 |
利用Hive和Pig来简化MapReduce的开发 |
|
ZooKeeper介绍 |
Hadoop背景介绍 |
HHDFS实战 |
Hadoop生态系统概览 |
Hadoop安装 |
Hadoop分布式文件系统(HDFS) |
HDFS命令行工具 |
什么是HDFS |
启动、停止HDFS服务 |
HDFS设计目标 |
如何查看HDFS日志 |
HDFS系统特点 |
查看HDFS Web控制台 |
HDFS工作原理 |
HDFS配置参数 |
HDFS服务进程 |
|
第二天上午(9:00-12:00) |
第二天下午(13:00-16:00) |
MapReduce分布式计算框架 |
集群规划 |
什么是MapReduce |
系统及硬件推荐配置 |
MapReduce服务 |
集群性能评估 |
MapReduce工作机制 |
集群维护与管理 |
MapReduce调度管理 |
查看集群状态 |
上机实验 |
上机实验 |
运行MapReduce任务 |
模拟集群失效 |
MapReduce参数设置 |
上机实验 |
启动、停止MapReduce服务 |
添加删除节点 |
如何查看MapReduce日志 |
数据平衡 |
查看MapReduce Web控制台 |
元数据备份 |
文件数据跨集群拷贝 |
|
集群升级 |
|
Ganglia(运维工具) |
|
Ganglia简介 |
|
Ganglia与Hadoop的集成 |
|
Hadoop中可监控的项目介绍 |
|
|
Hadoop生态系统介绍 |
hive
Hive
|
u Hive概念
u Hive架构原理
u 如何利用Hive用户接口提交作业
u Hive主要配置详解
u HiveQL语法讲解及使用
u 编写UDF及UDAF、UDTF函数
u Hive与HBase的整合
u HiveQL优化
u实际案例讲解
|
u 目标:掌握HQL语法及调优方法
u 实验:使用HQL语句和自定义函数实现简单和复杂的数据统计
|
hbase:
u HBase简介
u HBase部署、配置
u 客户端API:管理功能
u 客户端API:CRUD
u HBase常用命令
u HBase交互方式
u HBase架构
u 过滤器
u 协处理器
u 集群管理和监控
u 性能优化
u HBase运维管理
u HBase发展趋势
|
u 目标:掌握HBase主要功能,熟练使用API开发应用程序,掌握集群运维方法
u 实验:
u 部署HBase集群
u 通过Java程序管理表
u 通过Java程序增删改查数据
u 编写过滤器精细控制数据
u 编写2种协处理器程序
u HBase表管理
u HBase Region转移和备份
u Split&Compact策略
u regionserver日常维护
u master日常维护
|
zookeeper:
ZooKeeper
|
u 概念介绍和基本原理
u 集群安装部署
u Zookeeper Server角色
u Zookeeper Server选举、同步和工作流程
u Leader的工作流程
u Follower的工作流程
u Zookeeper的扩展
u Zookeeper的应用场景
u Zookeeper性能调优
u 数据一致性与Paxos算法
|
u 目标:了解ZooKeeper在Hadoop系统中的作用,掌握基本运维知识
u 实验:搭建ZooKeeper集群
|
flume:
u Flume简介
u Flume架构设计
u Flume原理及常见配置
u Flume部署、安装、配置
u Flume常用Source、Sink、Decorator
u Flume常用命令
u Flume与Hadoop、HBase集成
u 编写Source、Sink、Decorator插件
|
u 目标:掌握Flume Agent和Collector配置
|
spark:
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoo 文件系统中并行运行。
通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。
课程
|
技术原理
|
动手操作
|
Spark |
Spark的简介
Spark的原理
Spark与hadoop的比较
Spark安装
Mesos介绍
Mesos安装
Spark生态系统介绍
Spark核心概念
Spark语言学习
Spark语言学习
Spark案例实战 |
实验: 安装 使用 |
storm:
Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架(原来是由BackType开发,后BackType被Twitter收购,将Storm作为Twitter的实时数据分析)。实时数据处理的应用场景很广泛。 这种高可拓展性,能处理高频数据和大规模数据的实时流计算解决方案将被应用于实时搜索,高频交易和社交网络上。而流计算并不是最近的热点,金融机构的交易系统正是一个典型的流计算处理系统,它对系统的实时性和一致性有很高要求。
twitter列举了storm的三大作用领域:
1) 信息流处理(Stream Processing)
Storm可以用来实时处理新数据和更新数据库,兼具容错性和可扩展性。
2) 连续计算(Continuous Computation)
Storm可以进行连续查询并把结果即时反馈给客户,比如将Twitter上的热门话题发送到客户端。
3) 分布式远程过程调用(Distributed RPC)
Storm可以用来并行处理密集查询,Storm的拓扑结构(后文会介绍)是一个等待调用信息的分布函数,当它收到一条调用信息后,会对查询进行计算,并返回查询结果。
机器学习概述
|
数据处理 统计分析 数据挖掘 模型预测 结果呈现 |
k-近邻算法
|
|
决策树
|
|
基于概率论的分类方法:朴素贝叶斯
|
|
Logisstic回归
|
|
支持向量机
|
|
利用AdaBoost元算法提高分类性能
|
|
预测数值型数据:回归
|
|
树回归
|
|
利用k-均值聚类算法对未标注数据分组
|
|
使用Apriori算法进行关联分析
|
|
使用FP-growth算法来高效发现频繁项集
|
|
利用PCA来简化数据
|
|
利用SVD来简化数据
|
|
大数据与MapReduce
|
课程
|
技术原理
|
动手操作
|
Storm
|
Storm简介 Storm安装部署 Storm架构及工作原理详解 命令详解 二次开发编写 维护管理 案例 |
pig:
Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。
课程
|
技术原理
|
动手操作
|
|
Pig
|
u Pig简介
u 安装和运行Pig
u Pig Latin详解
u 命令行使用以及配置选项介绍
|
电信行业:
第一天 |
l 电信业大数据概述
n 电信业大数据现状(联通、移动、电信)和挑战
n 电信业大数据解决方案l Hadoop介绍 n Hadoop来源与历史
n Hadoop版本
n Hadoop开源与商业
l HDFS系统架构
n NameNode功能与原理
n DataNode功能与原理
n SecondaryNameNode功能与原理
n HDFS读取写入流程
n 理解HDFS Block
l Hadoop权限与安全
|
l Hadoop运行模式介绍
l 实验:
n 搭建单机版、伪分布式、分布式集群
n Hadoop命令使用
n 运行MapReduce Job
l Hadoop运维案例介绍
l HDFS配置文件说明
|
第二天 |
l 集群规划
l 集群监控、告警
l 集群管理
l 集群配置最佳实践
|
l MapReduce简介
l JobTracker、TaskTracker功能
l Hadoop HDFS API介绍
l Hadoop WebHDFS API介绍
l 实验
n 使用Hadoop HDFS API
|
第三天 |
l MapReduce流程详解
l MapReduce开发详解
l MapReduce开发最佳实践
l MapReduce 调优
l Hadoop Streaming开发详解
l Pig语言详解
|
l MapReduce系统参数说明
l 实验:
n 使用Java开发MapReduce程序
n 使用python开发MapReduce程序
n Pig开发MapReduce程序
|
第四天 |
l HBase简介和架构
HBase基本概念
HBase应用场景
HBase架构和核心模块介绍
HBase存储逻辑结构介绍
l HBase核心知识点
基本方法:Get/Put/Scan/Delete
列式存储核心:LSM
日志系统:WAL
底层存储:HFile
复制、备份:Replication
过渡期:RIT
分裂、合并:Split/Compact
负载均衡:Load Balance
l 电信行业应用案例
案例1 案例2 |
l HBase高级应用简单介绍
批量记载:bulk load
监控系统:OpenTSDB
主键设计:key design
二级索引:secondary index
协处理器:Coprocessors
HBase安装、部署、启动
l 【动手操作】
集群下安装部署HBase
启动HBase,启动顺序 测试启动
HBase常用接口、金融、政府案例
l 【小组讨论】
thrift接口
案例(需求剖析、架构设计)
l Hive使用
hive架构,一些特性
hive hadoop 配置 hive 配置文件 client工具介绍 hive hql介绍 |
大数据技术高薪就业班 | |||||||||||||||||||||||||||
培训时长:
8天,推荐就业 详情参见www.bihadoop.com
课程目标:
1、了解Hadoop的历史及目前发展的现状、以及Hadoop的技术特点,从而把握分布式计算框架及未来发展方向,在大数据时代能为企业的技术选型及架构设计提供决策参考。
2、全面掌握Hadoop的架构原理和使用场景,并通过贯穿课程的项目进行实战锻炼,从而熟练使用Hadoop进行MapReduce程序开发。课程还涵盖了分布式计算领域的常用算法介绍,帮助学员为企业在利用大数据方面体现自身价值。
3、深入理解Hadoop技术架构,对Hadoop运作机制有清晰全面的认识,可以独立规划及部署生产环境的Hadoop集群,掌握Hadoop基本运维思路和方法,对Hadoop集群进行管理和优化。
招生对象:
本课程适合于有一定java基础知识,对数据库和sql语句有一定了解,熟练使用linux系统的学生,特别适合于大专院校计算机专业的学生,开发基础薄弱的未就业人士以及在职程序员(无Java和数据库基础学生,需要增加前置课程,2个月,咨询客服)。
课程安排
|