大数据认知篇 - loyung

学习处理大数据其主要就是掌握大数据一系列框架的使用方法，而大数据框架存在很多，其中比较优秀的像hadoop，spark，elasticsearch随着hadoop生态圈的最早建立，目前spark和elastic都有自己强大的生态圈。

hadoop

目前企业中一般都是用hadoop2.x的版本了，所以就没有必要再去学hadoop1.x版本了，最新的hadoop版本已经为3.0了，hadoop2.x主要包含三大块:

hdfs前期，主要学习hdfs的一些命令即可，上传，下载，删除，移动，查看等命令...

mapreduce 这个需要重点学习下，要理解mr的原理以及代码实现，虽然现在工作中真正写mr的代码次数很少了，但是原理还是要理解的。

yarn 前期了解即可，只需要知道yarn是一个资源调度平台，主要负责给任务分配资源即可，yarn不仅可以给mapreduce任务调度资源，还可以为spark任务调度资源...yarn是一个公共的资源调度平台，所有满足条件的框架都可以使用yarn来进行资源调度。

关于hadoop的认知和学习可以阅读以下博文：Hadoop概念学习系列

spark

l spark 现在发展的也很不错，也发展成了一个生态圈，spark里面包含很多技术，spark core，spark steaming，spark mlib，spark graphx。

l spark生态圈里面包含的有离线处理spark core，和实时处理spark streaming，在这里需要注意一下，storm和spark streaming ，两个都是实时处理框架，但是主要区别是：storm是真正的一条一条的处理，而spark streaming 是一批一批的处理。

l spark中包含很多框架，在刚开始学习的时候主要学习spark core和spark streaming即可。这个一般搞大数据的都会用到。spark mlib和spark graphx 可以等后期工作需要或者有时间了在研究即可。

elasticsearch

elasticsearch是一个适合海量数据实时查询的全文搜索引擎，支持分布式集群，其实底层是基于lucene的。在查询的时候支持快速模糊查询，求count，distinct，sum，avg等操作，但是不支持join操作。elasticsearch目前也有一个生态圈，elk(elasticsearch logstash kibana)是一个典型的日志收集，存储，快速查询出图表的一整套解决方案。在学习elasticsearch的时候，前期主要学习如何使用es进行增删改查，es中的index，type，document的概念，以及es中的mapping的设计。

后面就主要围绕这三个框架进行学习。

posted on 2019-01-30 09:36 loyung 阅读(132) 评论(0) 编辑收藏举报

刷新页面返回顶部

loyung

公告