大数据--循序渐进的大数据(2)

一、Hdfs 架构

 
 访问   (1)  ----nameNode
   (2) 
    |
    |
    |
dataNode
 
每隔一段时间secondaryNameNode会将fsimage和edits进行合并产生心得fsimage;
 
1、Hdfs 适用场景
 
        数据密集型并行计算
 
        计算密集并行计算
 
2、不适合的场景
        HDFS不合适大量小文件的储存
        HDFS适用于高吞吐量,不适合低时间延迟的访问
        流式读取的方式、不适合多用户写入一个文件(一个文件同时只能被一个客户端写),以及任意位置写入(不支持随机写);
        不适合用mapreduce方式进行计算的场景;

              
二、MapReduce    编程
MapReduce借用的函数式编程的概念,google发明的一种分布式的数据处理模型。Hadoop的坐着Doug Cutting 根据这篇论文复制了google的分布式文件系统gfs和mapReduce,
对应的hadoop的hdfs和mapreduce。
 
MapReduce模型是整个大数据技术的核心思想,hdfs的架构是为了方便mapreduce而设计,hive、pig等软件最后总是通过调用mapreduce运行
 
 
 
三、Hive体系结构
 
Hive不是数据库、仅仅是数据仓库。是建立在hadoop上的数据仓库基础框架,它提供了一系列的工具,可以用来进行数据提取转化加载(ETL)

posted on 2016-01-28 16:34  吴玉祥  阅读(271)  评论(0编辑  收藏  举报

导航