摘要:
* Storm框架基础(一) Storm简述 如果你了解过SparkStreaming,那么Storm就可以类比着入门,在此我们可以先做一个简单的比较: 在SparkStreaming中: 我们曾尝试过每秒钟的实时数据处理,或者使用Window若干时间范围内的数据统一处理结果。亦或统计所有时间范围内 阅读全文
摘要:
* ClouderaManager与CDH 集群简述 对于企业而言,一般的集群大小规模大概是如下映射关系: 集群大小 小:10~30节点 中:100~300节点 大:1000+节点 对应所需的zookeeper集群规模大概是 小:3台 中:5台 大:7台 有些同学会说,学这玩意啥用啊?我之前集群环境 阅读全文
摘要:
* SparkSQL基础 起源: 1、在三四年前,Hive可以说是SQL on Hadoop的唯一选择,负责将SQL编译成可扩展的MapReduce作业。鉴于Hive的性能以及与Spark的兼容,Shark项目由此而生。 2、Shark即Hive on Spark,本质上是通过Hive的HQL解析, 阅读全文
摘要:
* SparkStreaming基础 打开之前构建好的Maven工程,如何构建?请参看SparkCore基础(二)的最后部分。 在SparkCore中,我们操作的数据都在RDD中,是Spark的一个抽象概念,也是一个抽象类,是由SparkContext对象sc转换得到的。 那么在SparkStrea 阅读全文
摘要:
* SparkCore基础(二) 继续探讨SparkCore,开门见山,不多废话。 SparkApplication结构探讨 包含关系: 之前我们运行过很多App了,其实每一个App都包含若干个Job任务; 而Job任务呢,一般都是由RDD的Action动作发出的eg:first、count、col 阅读全文
摘要:
* SparkCore基础(一) 学习Spark,首先要熟悉Scala,当然你说你会Python或者Java能不能玩Spark?能!但是不推荐,首推Scala,因为Scala非常便捷,而且Scala有非常好的交互式编程体验(当然了,在这里,Python也不差)。其次呢,我们要对Hadoop的MapR 阅读全文
摘要:
* HBase框架基础(五) 本节主要介绍HBase中关于分区的一些知识。 * HBase的RowKey设计 我们为什么要讨论rowKey的设计?或者说为什么很多工作岗位要求有rowKey的优化设计经验?这个我们需要简单的谈一谈HBase的存储情景。 简单讨论: ** 一个Table表可以划分为多个 阅读全文
摘要:
* Hadoop-CDH源码编译 这一节我们主要讲解一下根据CDH源码包手动编译的过程,至于为什么要使用CDH,前几节已经说明,那为什么又要自己手动编译,因为CDH的5.3.6对应的Hadoop2.5.0没有native动态库,很多压缩功能无法使用。 * 首先源码包下载: http://archiv 阅读全文
摘要:
* HBase框架基础(四) 上一节我们介绍了如何使用HBase搞一些MapReduce小程序,其主要作用呢是可以做一些数据清洗和分析或者导入数据的工作,这一节我们来介绍如何使用HBase与其他框架进行搭配使用。 * HBase与Hive 在开始HBase与Hive搭配使用前,我们复习一下这两个框架 阅读全文
摘要:
* HBase框架基础(三) 本节我们继续讨论HBase的一些开发常识,以及HBase与其他框架协调使用的方式。在开始之前,为了框架之间更好的适配,以及复习之前HBase的配置操作,请使用cdh版本的HBase开启动相关服务,记得,配置HMaster的HA。 为了方便,cdh版本hbase下载传送门 阅读全文
摘要:
* Scala基础简述 本文章作为Scala快速学习的教程,前提环境是:我假设在此之前,你已经学会了Java编程语言,并且我们以随学随用为目标(在此不会深度挖掘探讨Scala更高级层次的知识)。其中语言基础部分,不再做大量重复的无意义工作,我会直接使用RUNOOB.COM中的一些例子做一些整合,OK 阅读全文
摘要:
* HBase框架基础(一) 官方网址:http://hbase.apache.org/ * HBase是什么妖怪? 要解释HBase,我们就先说一说经常接触到的RDBMS,即关系型数据库: ** mysql: *** 有开源社区版本的,有企业收费版本的 *** 遵循主从架构 *** 端口号:330 阅读全文
摘要:
* HBase框架基础(二) 上一节我们了解了HBase的架构原理和模块组成,这一节我们先来聊一聊HBase的读写数据的过程。 * HBase的读写流程及3个机制 HBase的读数据流程: 1、HRegionServer保存着meta表以及表数据,要访问表数据,首先Client先去访问zookeep 阅读全文
摘要:
* 贴士Topic:启动所有集群节点 目的:在一台服务器上执行一个脚本,启动所有集群节点上的相关进程 描述:在学习过程中,你会发现Resourcemanager和HMaster等节点需要登录到节点所在机器启动 所需理论: Shell的区别 ** 登录Shell:粗放来讲,就是你手动使用CRT登录Li 阅读全文
摘要:
* Kafka框架基础 官网:kafka.apache.org 框架简介 Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。 相关概念 ** 生产 阅读全文
摘要:
* HUE搭配基础 首先简单说一下Hue框架的来源:HUE=HadoopUser Experience,看这名字就知道怎么回事了吧,没错,直白来说就是Hadoop用户体验,是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给 阅读全文
摘要:
* Oozie框架基础 官方文档地址:http://oozie.apache.org/docs/4.0.0/DG_QuickStart.html 除Oozie之外,类似的框架还有: ** Zeus:https://github.com/michael8335/zeus2 ** Azkaban:htt 阅读全文
摘要:
Sqoop框架基础 本节我们主要需要了解的是大数据的一些协作框架,也是属于Hadoop生态系统或周边的内容,比如: ** 数据转换工具:Sqoop ** 文件收集库框架:Flume ** 任务调度框架:Oozie ** 大数据Web工具:Hue 这些框架为什么成为主流,请自行百度谷歌,此处不再赘述。 阅读全文
摘要:
* Flume框架基础 框架简介: ** Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。 ** Flume基于流式架构,容错性强,也很灵活简单,主要用于在线实时的引用分析。 宏观认知: ** Flume、Kafka用来实时进行 阅读全文
摘要:
* Hive框架基础(二) 我们继续讨论hive框架 * Hive的外部表与内部表 内部表:hive默认创建的是内部表 例如: create table table001 (name string , age string) location '/input/table_data'; 此时:会在HD 阅读全文