day3课程笔记

************************************************
课程回顾:
(1)IP配置的常见问题。
(2)防火墙
(3)解压命令 tar -zxvf
(4) wordcount
************************************************
**1、什么是大数据?**
2002 大数据提出 美国引入。---麦肯锡报告。
维克托·迈尔-舍恩伯格---大数据之父
4V特征:

Volume(数据量大):PB级
Variety(数据多样性):文本、图像、视频、音频等
Velocity(输入和处理速度快):流式数据
Value(价值密度低):
## 积累很多的数据才能发掘大数据隐含的意义。 ##
## 只要能发挥和挖掘数据隐藏的价值,不用纠结与数据量大小 ##
大数据核心问题 ##存储、计算和分析##----通过组件(计算框架)解决了
**2、数据仓库和大数据**
(1)传统方式:DW(Data Warehouse),基于传统的关系数据库(Oracle、MySQL等),一般只做 查询分析,TD(Teradata 天睿)--数据仓库一体机。
(2)大数据的方式--分布式
GP:greenplum

**3、OLTP和OLAP**
(1)OLTP:Online Transaction Processing 联机事务处理:(insert update、delete)
ACID:所有的数据可追溯。-------传统关系型数据库(Oracle Mysql Postgresql等)
(2)OLAP:Online Analytic Processing 联机分析处理。
真正生产中是二者的结合:OLTP(后台操作 前台展示 数据设计等)+OLAP(Hive Hbase Spark等)。
### **4、Google的基本思想:三篇论文** 重点###
(1)GFS: Google File System----HDFS ---解决存储
a、数据库太贵。主要是为了解决 google搜索内容的存储问题。--造价低 易扩展。
b、倒排索引(Reverted Index):
int arry【】={1,2,3,4}
索引不一定提高查询速度。---key value
c、没有公布源码,----Hadoop之父 Doug Cutting
HDFS 默认文件块大小 128M(Hadoop 2.X) 64M(Hadoop 1.x),
默认3副本。
(2)MapReduce:分布计算模型
PageRank
(3)BigTable:大表
对HDFS进行封装和二次开发,提高查询效率。把所有数据存入一张表中,通过牺牲空间,换取时间

**5、Hadoop的简介**
http://hadoop.apache.org/
Hadoop YARN: A framework for job scheduling and cluster resource management.
Apache:HDFS+MapReduce+
## Yarn ##
https://hbase.apache.org/

**6、HDFS的体系架构**
HDFS 副本数可以再 hdfs-site.xml中修改。不超过机器个数 建议不超过3.
/opt/moudle/hadoop-2.7.3/etc/hadoop
HDFS=Namenode(主节点 名称节点)+SecondaryNameNode()+datanode(数据节点)
**7、MR编程模型**
包含两个阶段 key value 的设计是关键。
**8、大数据典型应用场景**

(1)商品推荐--协同过滤
(2)画像
(3)套牌车

posted @ 2019-02-13 07:42  jareny  阅读(82)  评论(0编辑  收藏  举报