飞鸟各投林

导航

Hadoop应用开发实战案例 第1周 基本介绍

数据金字塔与角色

数据分析

使用统计方法,有目的地对收集到的数据进行分析处理,并且解读分析结果

 

数据挖掘

数据挖掘是以查找隐藏在数据中的信息为目标的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关联,并且向用户显示这些关联
数据挖掘思想来源:假设检验,模式识别,人工智能,机器学习
常见数据挖掘任务:关联分析,聚类分析,孤立点分析等等
例:啤酒与尿布的故事
例:《Science》的文章《科学家摸索出大型数据集内的趋势》

 

商业智能

Business Intelligence,简写为BI
BI=数据仓库(存储层)+数据分析和数据挖掘(分析层)+报表(展现层)

 

数据分析算法

常用算法

回归

时间序列分析

分类器

聚类

频繁模式挖掘

 

数据分析

数据分析工具

 

常用传统数据分析工具排行


什么是大数据

大数据的特点

数据分析者面临的问题

n数据日趋庞大,无论是入库和查询,都出现性能瓶颈
n用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高
n使用的模型越来越复杂,计算量指数级上升

传统数据分析工具的困境

nR,SAS,SPSS等典型应用场景为 实验室工具
n处理数据量受限于内存,因此无法处理海量数据
n使用Oracle数据库等处理海量数据,但缺乏有效快速专业的分析功能
n可以采用抽样等方法,但有局限性,比如对于聚类,推荐系统则无法使用抽样
n解决方向:Hadoop集群和Map-Reduce并行计算
大数据线路图

Hadoop的思想

Map-Reduce编程模型

分析气象数据的Map-Reduce程序

常见算法的Map-Reduce化

 

Hadoop体系下的分析手段

n主流,Map-Reduce:Java程序
n轻量级的脚本语言:Pig
nSQL技巧平稳过渡:Hive
n机器学习平台:Mahout
nNoSQL:HBase

Hadoop子项目家族

pig

nPig可以看做hadoop的客户端软件,可以连接到hadoop集群进行数据分析工作
nPig方便不熟悉java的用户,使用一种较为简便的类似于SQL的面向数据流的语言pig latin进行数据处理
nPig latin可以进行排序、过滤、求和、分组、关联等常用操作,还可以自定义函数,这是一种面向数据分析处理的轻量级脚本语言
nPig可以看做是pig latin到map-reduce的映射器

Hive

n数据仓库工具。可以把Hadoop下的原始结构化数据变成Hive中的表
n支持一种与SQL几乎完全相同的语言HiveQL。除了不支持更新、索引和事务,几乎SQL的其它特征都能支持
n可以看成是从SQL到Map-Reduce的映射器
n提供shell、JDBC/ODBC、Thrift、Web等接口

 

Mahout的特点

nMahout的主要目的是实现可伸缩的机器学习算法(就是算法的M-R化),但也不一定要求基于Hadoop平台,核心库中某些非分布式的算法也具有很好的性能
n目标是帮助开发人员快速建立具有机器智能的应用程序,目前比较成熟和活跃的主要包括
1 频繁模式挖掘   (啤酒和尿布)
2 聚类算法
3 分类器
4 推荐系统
5 频繁子项挖掘

参考书

课程内容:案例列表(初定)
n巨型网站日志系统分析,提取KPI数据(Map-Reduce)
n电信运营商LBS应用,分析手机用户移动轨迹(Map-Reduce)
n电信运营商用户分析,通过通话指纹判断重入网用户(map-Reduce)
n电子商务推荐系统设计(Map-Reduce)
n更复杂的推荐系统场景(Mahout)
n社交网络,判断微博用户关系亲疏程度,发现社区(Pig)
n在社交网络中衡量节点的重要程度(Map-Reduce)
n聚类算法应用,分析优质客户(Map-Reduce,Mahout)
n金融数据分析,从历史数据中提取逆回购信息(Hive)
n通过数据分析制定股票策略(Map-Reduce,Hive)
nGPS应用,签到数据分析(Pig)
nMap-Reduce全排序实现和优化
n中间件开发,让多个Hadoop集群协作起来

 

 

posted on 2016-04-09 17:53  飞鸟各投林  阅读(559)  评论(0编辑  收藏  举报