loyung

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

学习处理大数据其主要就是掌握大数据一系列框架的使用方法,而大数据框架存在很多,其中比较优秀的像hadoop,spark,elasticsearch随着hadoop生态圈的最早建立,目前spark和elastic都有自己强大的生态圈。

hadoop

目前企业中一般都是用hadoop2.x的版本了,所以就没有必要再去学hadoop1.x版本了,最新的hadoop版本已经为3.0了,hadoop2.x主要包含三大块:

hdfs前期,主要学习hdfs的一些命令即可,上传,下载,删除,移动,查看等命令...

mapreduce 这个需要重点学习下,要理解mr的原理以及代码实现,虽然现在工作中真正写mr的代码次数很少了,但是原理还是要理解的。

yarn 前期了解即可,只需要知道yarn是一个资源调度平台,主要负责给任务分配资源即可,yarn不仅可以给mapreduce任务调度资源,还可以为spark任务调度资源...yarn是一个公共的资源调度平台,所有满足条件的框架都可以使用yarn来进行资源调度。

关于hadoop的认知和学习可以阅读以下博文:Hadoop概念学习系列

spark

l  spark 现在发展的也很不错,也发展成了一个生态圈,spark里面包含很多技术,spark core,spark steaming,spark mlib,spark graphx。

l  spark生态圈里面包含的有离线处理spark core,和实时处理spark streaming,在这里需要注意一下,storm和spark streaming ,两个都是实时处理框架,但是主要区别是:storm是真正的一条一条的处理,而spark streaming 是一批一批的处理。

l  spark中包含很多框架,在刚开始学习的时候主要学习spark core和spark streaming即可。这个一般搞大数据的都会用到。spark mlib和spark graphx 可以等后期工作需要或者有时间了在研究即可。

elasticsearch

elasticsearch是一个适合海量数据实时查询的全文搜索引擎,支持分布式集群,其实底层是基于lucene的。在查询的时候支持快速模糊查询,求count,distinct,sum,avg等操作,但是不支持join操作。elasticsearch目前也有一个生态圈,elk(elasticsearch logstash kibana)是一个典型的日志收集,存储,快速查询出图表的一整套解决方案。在学习elasticsearch的时候,前期主要学习如何使用es进行增删改查,es中的index,type,document的概念,以及es中的mapping的设计。

后面就主要围绕这三个框架进行学习。

posted on 2019-01-30 09:36  loyung  阅读(132)  评论(0编辑  收藏  举报