大数据--基本理论知识(1)
大数据时代的挑战与机遇
一、大数据具体定义 4V(volume variety value velocity)
大数据是一种新的思维方式;
--用数字化的方式和方法来提出问题,分析问题,解决问题;
二、哪些数据可供分析:
1.用户的行为数据(网页日志,行为日志);
2.用户的购买行为;
3.用户的评价(文字分析);
4.企业运营信息与财务信息;
5.百度,google等提供的公开数据也可供分析; …………淘宝魔方,TPI........
三、“同行”在做什么?
1.猿题库:通过人工智能算法对考点,考频和难度进行分析,基于大数据挖掘准确评估出用户当前的能力水平,做到的一对一的针对性出题;
2.coursera:学习曲线分析、知识网络分析、学员行为分析、欺诈分析、讲师评价;
3.GRE通过自适应考试更精确的评估考生水平;
四、我们可以用数据做什么?
◆记录
◆整理:数据不经过综合、整理、是没有意义的;ETL
◆汇总
◆统计:无论对人、公司,你的过去决定你的现在;现在决定未来;
◆预计
五、data lake 架构
OLTP systems ---数据池 ---数据仓库----使用
---数据仓库----使用
---数据仓库----使用
特点:
◆运行速度快
◆数据可以很大
◆并发量可以很大;
◆ 一般来说OLTP 系统是系统的入口
◆OLTP系统不适合做统计
( OLAP systems 一般用来做统计的系统 )
多维分析 基础: 数据立方体 Data Cube
数据仓库的模型 ---
◆多维模型;---即现有关系型数据库设计??
◆雪花模型;
六、数据挖掘与预测
◆线性回归 --BMI指数(身高体重计算健康指数)
◆分类 : 1. 决策分类算法
2. 神经网络分类算法 优点:适应能力强 缺点 :抽象
◆聚类:
◆时间序列分析:
七、大数据常用架构
1.hadoop (存放大数据)
--大数据底层架构
--提供大数据的存储(hdfs)和计算(mapreduce)功能
--为上层软件提供了接口
2.HBase(存少量数据)
--基于hadoop的nosql数据仓库
--列式存储,数据分析
3.Hive (提供使用sql的接口)
--使用sql来操作大数据,数据分析
4.Pig
--使用脚本来操作大数据
5.Mahout
--数据挖掘,机器学习