2018年12月17日

Hive(2)-Hive的安装,使用Mysql替换derby,以及一丢丢基本的HQL

摘要: 一. Hive下载 1. Hive官网地址 http://hive.apache.org/ 2. 文档查看地址 https://cwiki.apache.org/confluence/display/Hive/GettingStarted 3. 下载地址 http://archive.apache. 阅读全文

posted @ 2018-12-17 18:53 nt杨 阅读(880) 评论(0) 推荐(0) 编辑

Hive(1)-基本概念

摘要: 一. 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL(Hive Query Language)转化成MapReduce程序 1)Hive处 阅读全文

posted @ 2018-12-17 18:05 nt杨 阅读(254) 评论(0) 推荐(0) 编辑

2018年12月16日

ZooKeeper(3)-内部原理

摘要: 一. 节点类型 二. Stat结构体 1)czxid-创建节点的事务zxid 每次修改ZooKeeper状态都会收到一个zxid形式的时间戳,也就是ZooKeeper事务ID。 事务ID是ZooKeeper中所有修改总的次序。每个修改都有唯一的zxid,如果zxid1小于zxid2,那么zxid1在 阅读全文

posted @ 2018-12-16 13:38 nt杨 阅读(145) 评论(0) 推荐(0) 编辑

Hadoop(25)-高可用集群配置,HDFS-HA和YARN-HA

摘要: 一. HA概述 1. 所谓HA(High Available),即高可用(7*24小时不中断服务)。 2. 实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 3. Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SP 阅读全文

posted @ 2018-12-16 13:29 nt杨 阅读(833) 评论(0) 推荐(0) 编辑

2018年12月14日

ZooKeeper(2)-安装和配置

摘要: 一.下载 https://zookeeper.apache.org/ 二.本地模式安装 1.安装前准备 (1)安装Jdk (2)拷贝Zookeeper安装包到Linux系统下 (3)解压到指定目录 2.配置修改 (1)将/opt/module/zookeeper-3.4.10/conf这个路径下的z 阅读全文

posted @ 2018-12-14 17:31 nt杨 阅读(178) 评论(0) 推荐(0) 编辑

ZooKeeper(1)-入门

摘要: 一. Zookeeper工作机制 二.Zookeeper特点 三.Zookeeper数据结构 四.Zookeeper应用场景 统一命名服务 统一配置管理 统一集群管理 服务器动态上下线 软负载均衡 阅读全文

posted @ 2018-12-14 17:06 nt杨 阅读(224) 评论(0) 推荐(0) 编辑

Hadoop(24)-Hadoop优化

摘要: 1. MapReduce 跑得慢的原因 优化方法 MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。 数据输入 Map阶段 Reduce阶段 I/O传输 数据倾斜 数据倾斜现象 减小数据倾斜的方法 常用的调优参数 资源相关 阅读全文

posted @ 2018-12-14 16:53 nt杨 阅读(134) 评论(0) 推荐(0) 编辑

Hadoop(23)-Yarn资源调度器

摘要: Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序 1. Yarn工作机制 机制详解 第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce 阅读全文

posted @ 2018-12-14 16:43 nt杨 阅读(361) 评论(0) 推荐(0) 编辑

Hadoop(22)-Hadoop数据压缩

摘要: 1.压缩概述 2.压缩策略和原则 3.MapReduce支持的压缩编码 64位系统下的单核i7,Snappy的压缩速率可以达到至少250MB/S,解压缩速率可以达到至少500MB/S 4.压缩方式选择 1) Gzip 2) Bzip2 3) Lzo 4) Snappy 4. 压缩位置选择 压缩可以在 阅读全文

posted @ 2018-12-14 16:04 nt杨 阅读(276) 评论(0) 推荐(0) 编辑

Hadoop(21)-数据清洗(ELT)简单版

摘要: 有一个诸如这样的log日志 去除长度不合法,并且状态码不正确的记录 LogBean Mapper类 Driver 结果 阅读全文

posted @ 2018-12-14 15:48 nt杨 阅读(358) 评论(0) 推荐(0) 编辑

导航