2018 年 1月 12 日随笔档案 - 王振龙

2018年1月12日

摘要： * Storm框架基础（一） Storm简述如果你了解过SparkStreaming，那么Storm就可以类比着入门，在此我们可以先做一个简单的比较：在SparkStreaming中：我们曾尝试过每秒钟的实时数据处理，或者使用Window若干时间范围内的数据统一处理结果。亦或统计所有时间范围内阅读全文

posted @ 2018-01-12 21:25 王振龙阅读(246) 评论(0) 推荐(0) 编辑

ClouderaManager与CDH

摘要： * ClouderaManager与CDH 集群简述对于企业而言，一般的集群大小规模大概是如下映射关系：集群大小小：10~30节点中：100~300节点大：1000+节点对应所需的zookeeper集群规模大概是小：3台中：5台大：7台有些同学会说，学这玩意啥用啊？我之前集群环境阅读全文

posted @ 2018-01-12 21:24 王振龙阅读(2942) 评论(0) 推荐(0) 编辑

SparkSQL基础

摘要： * SparkSQL基础起源： 1、在三四年前，Hive可以说是SQL on Hadoop的唯一选择，负责将SQL编译成可扩展的MapReduce作业。鉴于Hive的性能以及与Spark的兼容，Shark项目由此而生。 2、Shark即Hive on Spark，本质上是通过Hive的HQL解析，阅读全文

posted @ 2018-01-12 21:22 王振龙阅读(183) 评论(0) 推荐(0) 编辑

SparkStreaming基础

摘要： * SparkStreaming基础打开之前构建好的Maven工程，如何构建？请参看SparkCore基础（二）的最后部分。在SparkCore中，我们操作的数据都在RDD中，是Spark的一个抽象概念，也是一个抽象类，是由SparkContext对象sc转换得到的。那么在SparkStrea 阅读全文

posted @ 2018-01-12 21:22 王振龙阅读(120) 评论(0) 推荐(0) 编辑

SparkCore基础（二）

摘要： * SparkCore基础（二）继续探讨SparkCore，开门见山，不多废话。 SparkApplication结构探讨包含关系：之前我们运行过很多App了，其实每一个App都包含若干个Job任务；而Job任务呢，一般都是由RDD的Action动作发出的eg：first、count、col 阅读全文

posted @ 2018-01-12 21:21 王振龙阅读(264) 评论(0) 推荐(0) 编辑

SparkCore基础（一）

摘要： * SparkCore基础（一）学习Spark，首先要熟悉Scala，当然你说你会Python或者Java能不能玩Spark？能！但是不推荐，首推Scala，因为Scala非常便捷，而且Scala有非常好的交互式编程体验（当然了，在这里，Python也不差）。其次呢，我们要对Hadoop的MapR 阅读全文

posted @ 2018-01-12 21:20 王振龙阅读(369) 评论(0) 推荐(0) 编辑

HBase框架基础（五）

摘要： * HBase框架基础（五）本节主要介绍HBase中关于分区的一些知识。 * HBase的RowKey设计我们为什么要讨论rowKey的设计？或者说为什么很多工作岗位要求有rowKey的优化设计经验？这个我们需要简单的谈一谈HBase的存储情景。简单讨论： ** 一个Table表可以划分为多个阅读全文

posted @ 2018-01-12 21:17 王振龙阅读(158) 评论(0) 推荐(0) 编辑

Hadoop-CDH源码编译

摘要： * Hadoop-CDH源码编译这一节我们主要讲解一下根据CDH源码包手动编译的过程，至于为什么要使用CDH，前几节已经说明，那为什么又要自己手动编译，因为CDH的5.3.6对应的Hadoop2.5.0没有native动态库，很多压缩功能无法使用。 * 首先源码包下载： http://archiv 阅读全文

posted @ 2018-01-12 21:16 王振龙阅读(959) 评论(0) 推荐(0) 编辑

HBase框架基础（四）

摘要： * HBase框架基础（四）上一节我们介绍了如何使用HBase搞一些MapReduce小程序，其主要作用呢是可以做一些数据清洗和分析或者导入数据的工作，这一节我们来介绍如何使用HBase与其他框架进行搭配使用。 * HBase与Hive 在开始HBase与Hive搭配使用前，我们复习一下这两个框架阅读全文

posted @ 2018-01-12 21:15 王振龙阅读(213) 评论(0) 推荐(1) 编辑

HBase框架基础（三）

摘要： * HBase框架基础（三）本节我们继续讨论HBase的一些开发常识，以及HBase与其他框架协调使用的方式。在开始之前，为了框架之间更好的适配，以及复习之前HBase的配置操作，请使用cdh版本的HBase开启动相关服务，记得，配置HMaster的HA。为了方便，cdh版本hbase下载传送门阅读全文

posted @ 2018-01-12 21:14 王振龙阅读(218) 评论(0) 推荐(1) 编辑

Scala基础简述

摘要： * Scala基础简述本文章作为Scala快速学习的教程，前提环境是：我假设在此之前，你已经学会了Java编程语言，并且我们以随学随用为目标（在此不会深度挖掘探讨Scala更高级层次的知识）。其中语言基础部分，不再做大量重复的无意义工作，我会直接使用RUNOOB.COM中的一些例子做一些整合，OK 阅读全文

posted @ 2018-01-12 21:13 王振龙阅读(241) 评论(0) 推荐(0) 编辑

HBase框架基础（一）

摘要： * HBase框架基础（一）官方网址：http://hbase.apache.org/ * HBase是什么妖怪？要解释HBase，我们就先说一说经常接触到的RDBMS，即关系型数据库： ** mysql： *** 有开源社区版本的，有企业收费版本的 *** 遵循主从架构 *** 端口号：330 阅读全文

posted @ 2018-01-12 21:12 王振龙阅读(235) 评论(0) 推荐(0) 编辑

HBase框架基础（二）

摘要： * HBase框架基础（二）上一节我们了解了HBase的架构原理和模块组成，这一节我们先来聊一聊HBase的读写数据的过程。 * HBase的读写流程及3个机制 HBase的读数据流程： 1、HRegionServer保存着meta表以及表数据，要访问表数据，首先Client先去访问zookeep 阅读全文

posted @ 2018-01-12 21:12 王振龙阅读(147) 评论(0) 推荐(0) 编辑

Shell脚本

摘要： * 贴士Topic：启动所有集群节点目的：在一台服务器上执行一个脚本，启动所有集群节点上的相关进程描述：在学习过程中，你会发现Resourcemanager和HMaster等节点需要登录到节点所在机器启动所需理论： Shell的区别 ** 登录Shell：粗放来讲，就是你手动使用CRT登录Li 阅读全文

posted @ 2018-01-12 21:10 王振龙阅读(126) 评论(0) 推荐(0) 编辑

Kafka框架基础

摘要： * Kafka框架基础官网：kafka.apache.org 框架简介 Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的，分区的和可复制的提交日志服务。相关概念 ** 生产阅读全文

posted @ 2018-01-12 21:09 王振龙阅读(218) 评论(0) 推荐(0) 编辑

HUE搭配基础

摘要： * HUE搭配基础首先简单说一下Hue框架的来源：HUE=HadoopUser Experience，看这名字就知道怎么回事了吧，没错，直白来说就是Hadoop用户体验，是一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给阅读全文

posted @ 2018-01-12 21:07 王振龙阅读(310) 评论(0) 推荐(0) 编辑

Oozie框架基础

摘要： * Oozie框架基础官方文档地址：http://oozie.apache.org/docs/4.0.0/DG_QuickStart.html 除Oozie之外，类似的框架还有： ** Zeus：https://github.com/michael8335/zeus2 ** Azkaban：htt 阅读全文

posted @ 2018-01-12 21:06 王振龙阅读(279) 评论(0) 推荐(0) 编辑

Sqoop框架基础

摘要： Sqoop框架基础本节我们主要需要了解的是大数据的一些协作框架，也是属于Hadoop生态系统或周边的内容，比如： ** 数据转换工具：Sqoop ** 文件收集库框架：Flume ** 任务调度框架：Oozie ** 大数据Web工具：Hue 这些框架为什么成为主流，请自行百度谷歌，此处不再赘述。阅读全文

posted @ 2018-01-12 21:04 王振龙阅读(306) 评论(0) 推荐(0) 编辑

Flume框架基础

摘要： * Flume框架基础框架简介： ** Flume提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务，Flume只能在Unix环境下运行。 ** Flume基于流式架构，容错性强，也很灵活简单，主要用于在线实时的引用分析。宏观认知： ** Flume、Kafka用来实时进行阅读全文

posted @ 2018-01-12 21:01 王振龙阅读(295) 评论(0) 推荐(0) 编辑

Hive框架基础（二）

摘要： * Hive框架基础（二）我们继续讨论hive框架 * Hive的外部表与内部表内部表：hive默认创建的是内部表例如： create table table001 (name string , age string) location '/input/table_data'; 此时：会在HD 阅读全文

posted @ 2018-01-12 21:00 王振龙阅读(286) 评论(0) 推荐(0) 编辑

王振龙

唯一不会变的就是改变

公告