Hadoop应用开发实战案例第1周基本介绍

数据金字塔与角色

数据分析

使用统计方法，有目的地对收集到的数据进行分析处理，并且解读分析结果

数据挖掘

数据挖掘是以查找隐藏在数据中的信息为目标的技术，是应用算法从大型数据库中提取知识的过程，这些算法确定信息项之间的隐性关联，并且向用户显示这些关联
数据挖掘思想来源：假设检验，模式识别，人工智能，机器学习
常见数据挖掘任务：关联分析，聚类分析，孤立点分析等等
例：啤酒与尿布的故事
例：《Science》的文章《科学家摸索出大型数据集内的趋势》

商业智能

Business Intelligence，简写为BI
BI=数据仓库（存储层）+数据分析和数据挖掘（分析层）+报表（展现层）

数据分析算法

常用算法

回归

时间序列分析

分类器

聚类

频繁模式挖掘

数据分析

数据分析工具

常用传统数据分析工具排行

什么是大数据

大数据的特点

数据分析者面临的问题

n数据日趋庞大，无论是入库和查询，都出现性能瓶颈
n用户的应用和分析结果呈整合趋势，对实时性和响应时间要求越来越高
n使用的模型越来越复杂，计算量指数级上升

传统数据分析工具的困境

nR，SAS，SPSS等典型应用场景为实验室工具
n处理数据量受限于内存，因此无法处理海量数据
n使用Oracle数据库等处理海量数据，但缺乏有效快速专业的分析功能
n可以采用抽样等方法，但有局限性，比如对于聚类，推荐系统则无法使用抽样
n解决方向：Hadoop集群和Map-Reduce并行计算
大数据线路图

Hadoop的思想

Map-Reduce编程模型

分析气象数据的Map-Reduce程序

常见算法的Map-Reduce化

Hadoop体系下的分析手段

n主流，Map-Reduce：Java程序
n轻量级的脚本语言：Pig
nSQL技巧平稳过渡：Hive
n机器学习平台：Mahout
nNoSQL：HBase

Hadoop子项目家族

pig

nPig可以看做hadoop的客户端软件，可以连接到hadoop集群进行数据分析工作
nPig方便不熟悉java的用户，使用一种较为简便的类似于SQL的面向数据流的语言pig latin进行数据处理
nPig latin可以进行排序、过滤、求和、分组、关联等常用操作，还可以自定义函数，这是一种面向数据分析处理的轻量级脚本语言
nPig可以看做是pig latin到map-reduce的映射器

Hive

n数据仓库工具。可以把Hadoop下的原始结构化数据变成Hive中的表
n支持一种与SQL几乎完全相同的语言HiveQL。除了不支持更新、索引和事务，几乎SQL的其它特征都能支持
n可以看成是从SQL到Map-Reduce的映射器
n提供shell、JDBC/ODBC、Thrift、Web等接口

Mahout的特点

nMahout的主要目的是实现可伸缩的机器学习算法（就是算法的M-R化），但也不一定要求基于Hadoop平台，核心库中某些非分布式的算法也具有很好的性能
n目标是帮助开发人员快速建立具有机器智能的应用程序，目前比较成熟和活跃的主要包括
1 频繁模式挖掘 (啤酒和尿布)
2 聚类算法
3 分类器
4 推荐系统
5 频繁子项挖掘

参考书

课程内容：案例列表（初定）
n巨型网站日志系统分析，提取KPI数据(Map-Reduce)
n电信运营商LBS应用，分析手机用户移动轨迹(Map-Reduce)
n电信运营商用户分析，通过通话指纹判断重入网用户(map-Reduce)
n电子商务推荐系统设计(Map-Reduce)
n更复杂的推荐系统场景(Mahout)
n社交网络，判断微博用户关系亲疏程度，发现社区(Pig)
n在社交网络中衡量节点的重要程度(Map-Reduce)
n聚类算法应用，分析优质客户(Map-Reduce,Mahout)
n金融数据分析，从历史数据中提取逆回购信息(Hive)
n通过数据分析制定股票策略(Map-Reduce,Hive)
nGPS应用，签到数据分析(Pig)
nMap-Reduce全排序实现和优化
n中间件开发，让多个Hadoop集群协作起来

posted on 2016-04-09 17:53 飞鸟各投林阅读(563) 评论(0) 收藏举报

刷新页面返回顶部

飞鸟各投林

导航

公告