大数据--基本理论知识(1)

大数据时代的挑战与机遇
 
一、大数据具体定义 4V(volume  variety  value  velocity)
 
大数据是一种新的思维方式;
--用数字化的方式和方法来提出问题,分析问题,解决问题;

 
二、哪些数据可供分析:
    1.用户的行为数据(网页日志,行为日志);
    2.用户的购买行为;
    3.用户的评价(文字分析);
    4.企业运营信息与财务信息;
    5.百度,google等提供的公开数据也可供分析;     …………淘宝魔方,TPI........

 
三、“同行”在做什么?
    1.猿题库:通过人工智能算法对考点,考频和难度进行分析,基于大数据挖掘准确评估出用户当前的能力水平,做到的一对一的针对性出题;
    2.coursera:学习曲线分析、知识网络分析、学员行为分析、欺诈分析、讲师评价;
    3.GRE通过自适应考试更精确的评估考生水平;

 
四、我们可以用数据做什么?
    ◆记录
    ◆整理:数据不经过综合、整理、是没有意义的;ETL
    ◆汇总
    ◆统计:无论对人、公司,你的过去决定你的现在;现在决定未来;
    ◆预计
 

五、data lake 架构
 
    OLTP systems   ---数据池 ---数据仓库----使用
                                              ---数据仓库----使用
                                              ---数据仓库----使用
 
    特点:
    ◆运行速度快
    ◆数据可以很大
    ◆并发量可以很大;
    ◆ 一般来说OLTP 系统是系统的入口
    ◆OLTP系统不适合做统计
 
 (   OLAP systems 一般用来做统计的系统 )
 
多维分析 基础:   数据立方体 Data Cube
 
数据仓库的模型 ---  
        ◆多维模型;---即现有关系型数据库设计??
        ◆雪花模型;
 

 
六、数据挖掘与预测
 
    ◆线性回归  --BMI指数(身高体重计算健康指数)
    ◆分类 : 1. 决策分类算法
                   2. 神经网络分类算法  优点:适应能力强 缺点 :抽象
    ◆聚类:
    ◆时间序列分析:
 

 
 
七、大数据常用架构
 
1.hadoop  (存放大数据)
    --大数据底层架构
    --提供大数据的存储(hdfs)和计算(mapreduce)功能
    --为上层软件提供了接口
2.HBase(存少量数据)
    --基于hadoop的nosql数据仓库
    --列式存储,数据分析
3.Hive (提供使用sql的接口)
    --使用sql来操作大数据,数据分析
4.Pig
    --使用脚本来操作大数据
5.Mahout
    --数据挖掘,机器学习
 

 

posted on 2016-01-28 16:35  吴玉祥  阅读(2413)  评论(0编辑  收藏  举报

导航