Hadoop初步学习

我们老板理解的大数据是,从数据到知识的转化。大数据目前的应用如 支付宝金融大数据、腾讯出行大数据等。

大数据的工作就是从海量数据源中筛选,梳理对自己有用的数据,整合成合适的数据结构,存储并进行可视化。

大数据目前的代表框架是Hadoop和spark

大数据涉及到的技包括数据分布式存储、数据分布式计算和数据可视化。

Hadoop包含两方面的知识:HDFS和MapReduce

一、HDFS是分布式文件存储系统,目的是将大文件分片存储,存储是大数据的基础。

  HDFS存储系统的原理:HDFS会构建两个模块,nameNode和很多dataNode,模块之间的控制关系为主从模式,nameNode记录所有dataNode的元信息,负责存时指定读时查找相应的dataNode,dataNode专门负责存储数据,以64M为单位存储,备份3份,这样就实现了大文件的分布式存储,利用分布式解决一次性存储需要很大磁盘空间的问题。

  HDFS如何使用:HDFS提供了一些接口,可以帮我们实现文件存取。

          1.通过shell命令调用 如mkdir  copyFromLocal ; 

          2.使用pathon读写,编写pathon代码,调用HDFS API实现读写。

   

二、MapReduce 是一个编程模型,是大数据应用的解决方案。

  编程模型:将文件分片,对每个分片进行处理,将每个机器的处理结果进行汇总。

  实现demo:读取某一个文件,将文件中的单词按照字符进行map输出,reduce方法进行字符出现次数的统计。

  YARN概念:2.0之后的资源管理器,支持多种计算框架,模块包含ResourceManger、ApplicationMaster、NodeManger。

  ResourceManger用于分配和调度资源,启动监控applicationMaster。

 继续学习。。。。。。。。

 

  

 

 

  

  

posted @ 2019-03-02 09:44  yuanxv  阅读(122)  评论(0编辑  收藏  举报