Hadoop基础-01-基本概念

源码见 https://github.com/hiszm/hadoop-train

大数据概述

hadoop

导学

学习内容

Hadoop
分布式文件系统HDFS
分布式资源调度YARN
分布式计算机框架MapReduce
数据仓库Hive
Hadoop分布式集群搭建

环境参数

Linux：Centos7
Hadoop：CDH5.15.1
开发工具：IDEA

案例

有一天，一名美国男子闯入他家附近的一家TARGET，抗议道：“你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券，你们这是赤裸裸的侮辱，我要起诉你们！”
店铺经理立刻跑出来承认错误，迷惑的经理到最后也没明白，到底发生了什么
一个月后，这名男子来TARGET道歉
因为他后来才知道女儿的确怀孕了
这样说来，TARGET比这位父亲知道他女儿怀孕的时间，足足早了一个月。
那么问题来了，TARGET是怎么知道的呢？
这个女孩之前并没有购买过任何的母婴用品
原来，这就是神秘的大数据发挥的作用。

定义和特征

海量的计算
大量的用户全体
数据分析
数据管理

4V特征

技术变革

技术驱动：数据量大
存储：文件存储->分布式存储
计算：单机-> 分布式计算
网络：万兆
DB：RDBMS（关系型数据库）-> NoSql(HBase/Redis)

现存的模式

手握大数据，无大数据行为（金融。通讯运营商）
没数据，又大数据思维（一些It企业）
又大数据，又有大数据思维（google，阿里）Ω

存储和分析

数据采集：Flume sqoop
数据存储：Hadoop
数据处理，分析，挖掘：Hadoop，Spark，Flink
数据可视化：echart

差异

对数据库的技术升级
经典数据库没有考虑到的多类别
实时性的技术
对网络，数据中心，运维的要求

Google的大数据结束

为了应对大数据带来的挑战

存储容量
读写数据
计算机效率

Google提供的思路（未开源）

MapReduce
BigTable
GFS

所以开发者根据谷歌的思路构建了Hadoop

posted @ 2020-07-23 18:54 孙中明阅读(279) 评论(2) 收藏举报

刷新页面返回顶部

博客园

Hi 孙中明

大道易简知易行难

Hadoop基础-01-基本概念

大数据概述

导学

学习内容

环境参数

案例

定义和特征

4V特征

技术变革

现存的模式

存储和分析

差异

Google的大数据结束

公告