yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理

全文检索、数据分析挖掘、推荐系统、广告系统、图像识别、海量存储、快速查询

 

l Hadoop介绍
n Hadoop来源与历史
n Hadoop版本
n Hadoop开源与商业
l HDFS系统架构
n NameNode功能与原理
n DataNode功能与原理
n SecondaryNameNode功能与原理
n HDFS读取写入流程
n 理解HDFS Block
l Hadoop权限与安全
l Hadoop运行模式介绍
l 实验:
n 搭建单机版、伪分布式、分布式集群
n Hadoop命令使用
n 运行MapReduce Job
l Hadoop运维案例介绍
l HDFS配置文件说明
第二天
l 集群规划
l 集群监控、告警
l 集群管理
l 集群配置最佳实践
l MapReduce简介
l JobTracker、TaskTracker功能
l Hadoop HDFS API介绍
l Hadoop WebHDFS API介绍
l 实验
n 使用Hadoop HDFS API
第三天
l MapReduce流程详解
l MapReduce开发详解
l MapReduce开发最佳实践
l MapReduce 调优
l Hadoop Streaming开发详解
l Pig语言详解
l MapReduce系统参数说明
l 实验:
n 使用Java开发MapReduce程序
n 使用python开发MapReduce程序
n Pig开发MapReduce程序
第四天
l HBase简介和架构
HBase基本概念
HBase应用场景
HBase架构和核心模块介绍
HBase存储逻辑结构介绍
l HBase核心知识点
基本方法:Get/Put/Scan/Delete
列式存储核心:LSM
日志系统:WAL
底层存储:HFile
复制、备份:Replication
过渡期:RIT
分裂、合并:Split/Compact
负载均衡:Load Balance
l HBase高级应用简单介绍
批量记载:bulk load
监控系统:OpenTSDB
主键设计:key design
二级索引:secondary index
协处理器:Coprocessors
HBase安装、部署、启动
【动手操作】
集群下安装部署HBase
启动HBase,启动顺序 测试启动
HBase常用接口、金融、政府案例
【小组讨论】
thrift接口
案例(需求剖析、架构设计)
l Hive使用
hive架构,一些特性
hive hadoop 配置
hive 配置文件
client工具介绍 hive hql介绍

一、Hadoop入门,了解什么是hadoop

1、 Hadoop产生背景

2、 Hadoop在大数据、云计算中的位置和关系

3、 国内外Hadoop应用案例介绍

4、 国内Hadoop的就业情况分析及课程大纲介绍

5、 分布式系统概述

6、 Hadoop生态圈以及各组成部分的简介

7、 Hadoop核心MapReduce例子说明

二、分布式文件系统HDFS,是数据库管理员的基础课程

1、 分布式文件系统DFS简介

2、 HDFS的系统组成介绍

3、 HDFS的组成部分详解

4、 副本存放策略及路由规则

5、 NameNode Federation

6、 命令行接口

7、 Java接口

8、 客户端与HDFS的数据流讲解

9、 HDFS的可用性(HA)

 

 

三、初级MapReduce,成为Hadoop开发人员的基础课程

1、 如何理解map、reduce计算模型

2、 剖析伪分布式下MapReduce作业的执行过程

3、 Yarn模型

4、 序列化

5、 MapReduce的类型与格式

6、 MapReduce开发环境搭建

7、 MapReduce应用开发

8、 更多示例讲解,熟悉MapReduce算法原理

 

四、高级MapReduce,高级Hadoop开发人员的关键课程

1、 使用压缩分隔减少输入规模

2、 利用Combiner减少中间数据

3、 编写Partitioner优化负载均衡

4、 如何自定义排序规则

5、 如何自定义分组规则

6、 MapReduce优化

7、 编程实战

五、Hadoop集群与管理,是数据库管理员的高级课程

1、 Hadoop集群的搭建

2、 Hadoop集群的监控

3、 Hadoop集群的管理

4、集群下运行MapReduce程序

六、ZooKeeper基础知识,构建分布式系统的基础框架

1、ZooKeeper体现结构

2、ZooKeeper集群的安装

3、操作ZooKeeper

七、HBase基础知识,面向列的实时分布式数据库

1、 HBase定义

2、 HBase与RDBMS的对比

3、 数据模型

4、 系统架构

5、HBase上的MapReduce

6、表的设计

八、HBase集群及其管理

1、集群的搭建过程讲解

2、集群的监控

3、集群的管理

九、HBase客户端

1、 HBase Shell以及演示

2、Java客户端以及代码演示

十、Pig基础知识,进行hadoop计算的另一种框架

1、 Pig概述

2、 安装Pig

3、 使用Pig完成手机流量统计业务

十一、Hive,使用sql进行计算的hadoop框架

1、 数据仓库基础知识

2、 Hive定义

3、 Hive体系结构简介

4、 Hive集群

5、 客户端简介

6、 HiveQL定义

7、 HiveQL与SQL的比较

8、 数据类型

9、表与表分区概念

10、表的操作与CLI客户端演示

11、数据导入与CLI客户端演示

12、查询数据与CLI客户端演示

13、数据的连接与CLI客户端演示

14、用户自定义函数(UDF)的开发与演示

十二、Sqoophadooprdbms进行数据转换的框架

1、配置Sqoop

2、使用Sqoop把数据从mysql导入到HDFS中

3、使用Sqoop把数据从HDFS导出到mysql中

十三、大数据实战

互联网大数据收集、存储、数据使用完整架构和操作

 

 

 

Hadoop背景介绍

HDFS使用

Hadoop生态系统概览

HDFS命令行工具

Hadoop分布式文件系统(HDFS)

启动、停止HDFS服务

什么是HDFS

如何查看HDFS日志

HDFS设计目标

查看HDFS Web控制台

HDFS系统特点

HDFS配置参数

HDFS工作原理

上机开发环境介绍

HDFS服务进程

HDFS开发

 

Java API详解

 

FuseHDFS

 

WebHDFS Restful API

 

上机练习

第二天上午 (9:00-12:00)

第二天下午 (13:00-16:00)

MapReduce分布式计算框架

MapReduce示例程序解析

什么是MapReduce

MapReduce框架类库介绍

MapReduce服务

MapReduce实战,你的第一个MapReduce项目

MapReduce工作机制

项目需求简述

MapReduce调度管理

项目设计讨论

MapReduce参数设置

项目伪代码分析

启动、停止MapReduce服务

项目实现,上机练习

如何查看MapReduce日志

 

查看MapReduce Web控制台

 

第三天上午 (9:00-12:00)

第三天下午 (13:00-16:00)

MapReduce进阶实战

如何用其它语言开发MapReduce应用

项目性能优化

MapReduce常用算法(Sort、Index、Join、IF-IDF等)介绍

上机练习

Hadoop生态系统介绍

项目结果分类汇总

HBase入门

上机练习

利用Oozie对MapReduce任务进行调度

项目结果排序

利用Flume NG 和 Sqoop与各种数据源对接

上机练习

利用Hive和Pig来简化MapReduce的开发

 

ZooKeeper介绍

Hadoop背景介绍

HHDFS实战

Hadoop生态系统概览

Hadoop安装

Hadoop分布式文件系统(HDFS)

HDFS命令行工具

什么是HDFS

启动、停止HDFS服务

HDFS设计目标

如何查看HDFS日志

HDFS系统特点

查看HDFS Web控制台

HDFS工作原理

HDFS配置参数

HDFS服务进程

 

第二天上午(9:00-12:00)

第二天下午(13:00-16:00)

MapReduce分布式计算框架

集群规划

什么是MapReduce

系统及硬件推荐配置

MapReduce服务

集群性能评估

MapReduce工作机制

集群维护与管理

MapReduce调度管理

查看集群状态

上机实验

上机实验

运行MapReduce任务

模拟集群失效

MapReduce参数设置

上机实验

启动、停止MapReduce服务

添加删除节点

如何查看MapReduce日志

数据平衡

查看MapReduce Web控制台

元数据备份

 

文件数据跨集群拷贝

 

集群升级

 

Ganglia(运维工具)

 

Ganglia简介

 

Ganglia与Hadoop的集成

 

Hadoop中可监控的项目介绍

 

Hadoop生态系统介绍

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

hive

Hive
u  Hive概念
u  Hive架构原理
u  如何利用Hive用户接口提交作业
u  Hive主要配置详解
u  HiveQL语法讲解及使用
u  编写UDF及UDAF、UDTF函数
u  Hive与HBase的整合
u  HiveQL优化
u实际案例讲解
u  目标:掌握HQL语法及调优方法
u  实验:使用HQL语句和自定义函数实现简单和复杂的数据统计

hbase:

u  HBase简介
u  HBase部署、配置
u  客户端API:管理功能
u  客户端API:CRUD
u  HBase常用命令
u  HBase交互方式
u  HBase架构
u  过滤器
u  协处理器
u  集群管理和监控
u  性能优化
u  HBase运维管理
u  HBase发展趋势
u  目标:掌握HBase主要功能,熟练使用API开发应用程序,掌握集群运维方法
u  实验:
u  部署HBase集群
u  通过Java程序管理表
u  通过Java程序增删改查数据
u  编写过滤器精细控制数据
u  编写2种协处理器程序
u  HBase表管理
u  HBase Region转移和备份
u  Split&Compact策略
u  regionserver日常维护
u  master日常维护

zookeeper:

ZooKeeper
u  概念介绍和基本原理
u  集群安装部署
u  Zookeeper Server角色
u  Zookeeper Server选举、同步和工作流程
u  Leader的工作流程
u  Follower的工作流程
u  Zookeeper的扩展
u  Zookeeper的应用场景
u  Zookeeper性能调优
u  数据一致性与Paxos算法
u  目标:了解ZooKeeper在Hadoop系统中的作用,掌握基本运维知识
u  实验:搭建ZooKeeper集群

flume:

u  Flume简介
u  Flume架构设计
u  Flume原理及常见配置
u  Flume部署、安装、配置
u  Flume常用Source、Sink、Decorator
u  Flume常用命令
u  Flume与Hadoop、HBase集成
u  编写Source、Sink、Decorator插件
u  目标:掌握Flume Agent和Collector配置

spark:

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
    Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoo 文件系统中并行运行。
   通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

课程
技术原理
动手操作
Spark
Spark的简介
Spark的原理
Spark与hadoop的比较
Spark安装
Mesos介绍
Mesos安装
Spark生态系统介绍
Spark核心概念
Spark语言学习
Spark语言学习
Spark案例实战
实验:
安装
使用

storm:

 Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架(原来是由BackType开发,后BackType被Twitter收购,将Storm作为Twitter的实时数据分析)。实时数据处理的应用场景很广泛。 这种高可拓展性,能处理高频数据和大规模数据的实时流计算解决方案将被应用于实时搜索,高频交易和社交网络上。而流计算并不是最近的热点,金融机构的交易系统正是一个典型的流计算处理系统,它对系统的实时性和一致性有很高要求。

twitter列举了storm的三大作用领域:

1) 信息流处理(Stream Processing)

Storm可以用来实时处理新数据和更新数据库,兼具容错性和可扩展性。

2) 连续计算(Continuous Computation)

Storm可以进行连续查询并把结果即时反馈给客户,比如将Twitter上的热门话题发送到客户端。

3) 分布式远程过程调用(Distributed RPC)

Storm可以用来并行处理密集查询,Storm的拓扑结构(后文会介绍)是一个等待调用信息的分布函数,当它收到一条调用信息后,会对查询进行计算,并返回查询结果。

机器学习概述

数据处理

统计分析

数据挖掘

模型预测

结果呈现

k-近邻算法
决策树
基于概率论的分类方法:朴素贝叶斯
Logisstic回归
支持向量机
利用AdaBoost元算法提高分类性能
预测数值型数据:回归
树回归
利用k-均值聚类算法对未标注数据分组
使用Apriori算法进行关联分析
使用FP-growth算法来高效发现频繁项集
利用PCA来简化数据
利用SVD来简化数据
大数据与MapReduce
课程
技术原理
动手操作
Storm
Storm简介
Storm安装部署
Storm架构及工作原理详解
命令详解
二次开发编写
维护管理
案例

pig:

Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。

 

课程
技术原理
动手操作
 
Pig
u  Pig简介
u  安装和运行Pig
u  Pig Latin详解
u  命令行使用以及配置选项介绍

电信行业:

第一天
l 电信业大数据概述
n 电信业大数据现状(联通、移动、电信)和挑战
n 电信业大数据解决方案
l Hadoop介绍
n Hadoop来源与历史
n Hadoop版本
n Hadoop开源与商业
l HDFS系统架构
n NameNode功能与原理
n DataNode功能与原理
n SecondaryNameNode功能与原理
n HDFS读取写入流程
n 理解HDFS Block
l Hadoop权限与安全
l Hadoop运行模式介绍
l 实验:
n 搭建单机版、伪分布式、分布式集群
n Hadoop命令使用
n 运行MapReduce Job
l Hadoop运维案例介绍
l HDFS配置文件说明
第二天
l 集群规划
l 集群监控、告警
l 集群管理
l 集群配置最佳实践
l MapReduce简介
l JobTracker、TaskTracker功能
l Hadoop HDFS API介绍
l Hadoop WebHDFS API介绍
l 实验
n 使用Hadoop HDFS API
第三天
l MapReduce流程详解
l MapReduce开发详解
l MapReduce开发最佳实践
l MapReduce 调优
l Hadoop Streaming开发详解
l Pig语言详解
l MapReduce系统参数说明
l 实验:
n 使用Java开发MapReduce程序
n 使用python开发MapReduce程序
n Pig开发MapReduce程序
第四天
l HBase简介和架构
HBase基本概念
HBase应用场景
HBase架构和核心模块介绍
HBase存储逻辑结构介绍
l HBase核心知识点
基本方法:Get/Put/Scan/Delete
列式存储核心:LSM
日志系统:WAL
底层存储:HFile
复制、备份:Replication
过渡期:RIT
分裂、合并:Split/Compact
负载均衡:Load Balance
l 电信行业应用案例
案例1 
案例2
l HBase高级应用简单介绍
批量记载:bulk load
监控系统:OpenTSDB
主键设计:key design
二级索引:secondary index
协处理器:Coprocessors
HBase安装、部署、启动
【动手操作】
集群下安装部署HBase
启动HBase,启动顺序 测试启动
HBase常用接口、金融、政府案例
【小组讨论】
thrift接口
案例(需求剖析、架构设计)
l Hive使用
hive架构,一些特性
hive hadoop 配置
hive 配置文件
client工具介绍 hive hql介绍

 

大数据技术高薪就业班
 
 
培训时长:
8天,推荐就业 详情参见www.bihadoop.com
课程目标:
1、了解Hadoop的历史及目前发展的现状、以及Hadoop的技术特点,从而把握分布式计算框架及未来发展方向,在大数据时代能为企业的技术选型及架构设计提供决策参考。
2、全面掌握Hadoop的架构原理和使用场景,并通过贯穿课程的项目进行实战锻炼,从而熟练使用Hadoop进行MapReduce程序开发。课程还涵盖了分布式计算领域的常用算法介绍,帮助学员为企业在利用大数据方面体现自身价值。
3、深入理解Hadoop技术架构,对Hadoop运作机制有清晰全面的认识,可以独立规划及部署生产环境的Hadoop集群,掌握Hadoop基本运维思路和方法,对Hadoop集群进行管理和优化。
招生对象:
本课程适合于有一定java基础知识,对数据库和sql语句有一定了解,熟练使用linux系统的学生,特别适合于大专院校计算机专业的学生,开发基础薄弱的未就业人士以及在职程序员(无Java和数据库基础学生,需要增加前置课程,2个月,咨询客服)。
课程安排
一、Hadoop入门,了解什么是hadoop
1、 Hadoop产生背景
2、 Hadoop在大数据、云计算中的位置和关系
3、 国内外Hadoop应用案例介绍
4、 国内Hadoop的就业情况分析及课程大纲介绍
5、 分布式系统概述
6、 Hadoop生态圈以及各组成部分的简介
7、 Hadoop核心MapReduce例子说明
二、分布式文件系统HDFS,是数据库管理员的基础课程
1、 分布式文件系统DFS简介
2、 HDFS的系统组成介绍
3、 HDFS的组成部分详解
4、 副本存放策略及路由规则
5、 NameNode Federation
6、 命令行接口
7、 Java接口
8、 客户端与HDFS的数据流讲解
9、 HDFS的可用性(HA)
三、初级MapReduce,成为Hadoop开发人员的基础课程
1、 如何理解map、reduce计算模型
2、 剖析伪分布式下MapReduce作业的执行过程
3、 Yarn模型
4、 序列化
5、 MapReduce的类型与格式
6、 MapReduce开发环境搭建
7、 MapReduce应用开发
8、 更多示例讲解,熟悉MapReduce算法原理
四、高级MapReduce,高级Hadoop开发人员的关键课程
1、 使用压缩分隔减少输入规模
2、 利用Combiner减少中间数据
3、 编写Partitioner优化负载均衡
4、 如何自定义排序规则
5、 如何自定义分组规则
6、 MapReduce优化
7、 编程实战
五、Hadoop集群与管理,是数据库管理员的高级课程
1、 Hadoop集群的搭建
2、 Hadoop集群的监控
3、 Hadoop集群的管理
4、集群下运行MapReduce程序
六、ZooKeeper基础知识,构建分布式系统的基础框架
1、ZooKeeper体现结构
2、ZooKeeper集群的安装
3、操作ZooKeeper
七、HBase基础知识,面向列的实时分布式数据库
1、 HBase定义
2、 HBase与RDBMS的对比
3、 数据模型
4、 系统架构
5、HBase上的MapReduce
6、表的设计
八、HBase集群及其管理
1、集群的搭建过程讲解
2、集群的监控
3、集群的管理
九、HBase客户端
1、 HBase Shell以及演示
2、Java客户端以及代码演示
十、Pig基础知识,进行hadoop计算的另一种框架
1、 Pig概述
2、 安装Pig
3、 使用Pig完成手机流量统计业务
十一、Hive,使用sql进行计算的hadoop框架
1、 数据仓库基础知识
2、 Hive定义
3、 Hive体系结构简介
4、 Hive集群
5、 客户端简介
6、 HiveQL定义
7、 HiveQL与SQL的比较
8、 数据类型
9、表与表分区概念
10、表的操作与CLI客户端演示
11、数据导入与CLI客户端演示
12、查询数据与CLI客户端演示
13、数据的连接与CLI客户端演示
14、用户自定义函数(UDF)的开发与演示
十二、Sqoop,hadoop与rdbms进行数据转换的框架
1、配置Sqoop
2、使用Sqoop把数据从mysql导入到HDFS中
3、使用Sqoop把数据从HDFS导出到mysql中
十三、大数据实战
大数据完整项目架构和开发过程练习
posted on 2016-06-23 19:15  xxxxxxxx1x2xxxxxxx  阅读(298)  评论(0编辑  收藏  举报