2017 年 8月 22 日随笔档案 - 因为专注。所以专业

2017年8月22日

摘要：基于 Eclipse 的 MapReduce 开发环境搭建基于 Eclipse 的 MapReduce 开发环境搭建原文连接：http://www.cnblogs.com/vincentzh/p/6055850.html 上周末本来要写这篇的，结果没想到上周末自己环境都没有搭起来，运行起来有问题阅读全文

posted @ 2017-08-22 22:43 因为专注。所以专业阅读(193) 评论(0) 推荐(0) 编辑

大数据中mapreduce的核心，shuffle的理解，以及在shuffle中的优化问题

摘要：大数据中mapreduce的核心，shuffle的理解，以及在shuffle中的优化问题关于shuffle的过程图。一：概述shuffle Shuffle是mapreduce的核心，链接map与reduce的中间过程。 Mapp负责过滤分发，而reduce则是归并整理，从mapp输出到reduc 阅读全文

posted @ 2017-08-22 22:32 因为专注。所以专业阅读(1128) 评论(0) 推荐(0) 编辑

HDFS中高可用性HA的讲解

摘要： HDFS中高可用性HA的讲解 HDFS Using QJM HA使用的是分布式的日志管理方式一：概述 1.背景如果namenode出现问题，整个HDFS集群将不能使用。是不是可以有两个namenode呢一个为对外服务->active 一个处于待机->standby 他们的之间共享的元数据交阅读全文

posted @ 2017-08-22 22:30 因为专注。所以专业阅读(1019) 评论(0) 推荐(0) 编辑

关于HIVE的配置

摘要：关于HIVE的配置一：安装配置hive 1.检测hadoop 2.解压hive 3.修改环境 sudo vi /etc/profile 4.source以下 5.复制hive-env.sh 6.编辑hive-env.sh 7.在HDFS上创建文件夹并修改写权限 8.验证hive的安装二：操作hi 阅读全文

posted @ 2017-08-22 22:27 因为专注。所以专业阅读(168) 评论(0) 推荐(0) 编辑

sqoop的使用

摘要： sqoop的使用 sqoop的使用一：导入 mysql--》hdfs 1.准备 2.导入数据可以看到在跑yarn。 3.在HDFS上看结果默认的地址：hdfs的家目录。 4.在HDFS上指定目录 5.指定map的个数，相同目录时，先删除原来的目录 6.查看结果 7.指定分隔符默认是‘，’，在阅读全文

posted @ 2017-08-22 22:25 因为专注。所以专业阅读(259) 评论(0) 推荐(0) 编辑

Flume协作框架

摘要： Flume协作框架 Flume协作框架 1.概述 -》flume的三大功能 collecting, aggregating, and moving 收集聚合移动 2.框图 3.架构特点 -》on streaming data flows 基于流式的数据数据流：job-》不断获取数据任务流：j 阅读全文

posted @ 2017-08-22 22:23 因为专注。所以专业阅读(139) 评论(0) 推荐(0) 编辑

Oozie协作框架

摘要： Oozie协作框架一：概述 1.大数据协作框架 2.Hadoop的任务调度 3.Oozie的三大功能 Oozie Workflow jobs Oozie Coordinator jobs Oozie Bundle 4.Oozie的架构控制流节点起始，分支，并发，汇合，结束动作节点action 阅读全文

posted @ 2017-08-22 22:21 因为专注。所以专业阅读(225) 评论(0) 推荐(0) 编辑

关于HBase的概述

摘要：关于HBase的概述 1.hbase的特点 -》数据存储量可以达到亿级别数据维持在秒级 -》按列存储的数据库 -》能够存储上百万列 -》hbase的底层存储依赖于HDFS -》如何扩展hbase，增加DataNode节点 -》添加一台机器以后，如何保证负载均衡 -》多版本version，int值 2 阅读全文

posted @ 2017-08-22 22:19 因为专注。所以专业阅读(157) 评论(0) 推荐(0) 编辑

HBase的安装部署以及简单使用

摘要： HBase的安装部署以及简单使用一：下载安装 1.下载安装 2.开启hadoop与zookeeper 3.修改配置文件hbase-env export JAVA_HOME=/opt/modules/jdk1.7.0_67 export HBASE_MANAGES_ZK=false 》不使用hbas 阅读全文

posted @ 2017-08-22 22:18 因为专注。所以专业阅读(301) 评论(0) 推荐(0) 编辑

HBASE的读写以及client API

摘要： HBASE的读写以及client API 一：读写思想 1.系统表 hbase：namespace 存储hbase中所有的namespace的信息 hbase：meta rowkey:hbase中所有表的region的名称 column：regioninfo：region的名称，region的范围阅读全文

posted @ 2017-08-22 22:17 因为专注。所以专业阅读(503) 评论(0) 推荐(0) 编辑

Hbase中rowkey设计原则

摘要： Hbase中rowkey设计原则 1.热点问题在某一时间段，有大量的数据同时对一个region进行操作 2.原因对rowkey的设计不合理对rowkey的划分不合理 3.解决方式 rowkey是hbase的读写唯一标识最大长度是64KB。 4.核心原则设计必须按照业务需求进行设计 5.长度阅读全文

posted @ 2017-08-22 22:11 因为专注。所以专业阅读(581) 评论(0) 推荐(0) 编辑

Hbase的属性

摘要： Hbase的属性一：基本属性 1.查看属性 2.解释属性 NAME：列簇名 BLOOMFILTER：布隆过滤器，用于对storefile的过滤共有三种类型： ROW:行健过滤 ROWCOL：行列过滤 NONE：无 VERSIONS：版本数 MIN_VERSIONS:最小版本数 TTL：版本存货活阅读全文

posted @ 2017-08-22 22:10 因为专注。所以专业阅读(318) 评论(0) 推荐(0) 编辑

Region的预分区

摘要： Region的预分区 1.预分区的方式共有四种方式 2.帮助信息 help 'create' 3.第一种方式 4.在页面上查看效果（端口号：60010） 5.第二种方式）创建文件，并在文件中书写分区的值）创建表 6.观察效果 7.第三种方式但是不常使用，因为这种方式是hash值进行分区，不再阅读全文

posted @ 2017-08-22 22:08 因为专注。所以专业阅读(575) 评论(1) 推荐(0) 编辑

HBase的几种调优（GC策略，flush，compact，split）

摘要： HBase的几种调优（GC策略，flush，compact，split）一：GC的调优 1.jvm的内存新生代：存活时间较短，一般存储刚生成的一些对象老年代：存活时间较长，主要存储在应用程序中生命周期较长的对象永久代：一般存储meta和class的信息 2.GC策略 Parrallel Ne 阅读全文

posted @ 2017-08-22 22:07 因为专注。所以专业阅读(593) 评论(0) 推荐(0) 编辑

HBase的完全分布式的搭建与部署，以及多master

摘要： HBase的完全分布式的搭建与部署，以及多master 一：前提准备 1.设置时间同步 2.清空logs，datas 3.格式化集群 bin/hdfs namenode -format 4.重启集群 sbin/start-dfs.sh sbin/start-yarn.sh 5.删除zookeeper 阅读全文

posted @ 2017-08-22 22:06 因为专注。所以专业阅读(336) 评论(0) 推荐(0) 编辑

HBase的数据迁移（含HDFS的数据迁移）

摘要： HBase的数据迁移（含HDFS的数据迁移） 1.启动两个HDFS集群 hadoop0，hadoop1，都是伪分布式的集群 2.启动hadoop3的zookeeper与hbase 注意点：需要开启yarn服务，因为distcp需要yarn。 3.在hdfs上可以看到hadoop3上有表s1. 4.拷阅读全文

posted @ 2017-08-22 22:05 因为专注。所以专业阅读(542) 评论(0) 推荐(0) 编辑

HBase的二级索引

摘要： HBase的二级索引，以及phoenix的安装（需再做一次）一：HBase的二级索引 1.讲解 uid+ts 11111_20161126111111:查询某一uid的某一个时间段内的数据查询某一时间段内所有用户的数据：按照时间索引表 rowkey：ts+uid 20161126111111— 阅读全文

posted @ 2017-08-22 22:04 因为专注。所以专业阅读(346) 评论(0) 推荐(0) 编辑

Hadoop离线项目介绍

摘要： Hadoop离线项目介绍（不包括程序） Hadoop离线项目介绍（不包括程序）一：项目场景 1.需求分析根据用户行为数据进行程序的处理，得到结果保存到关系型数据库中需要收集用户(系统使用者)在不同客户端上产生的用户行为数据，最终保存到hdfs上需要明确收集字段的相关信息，而且需要考虑到后期的阅读全文

posted @ 2017-08-22 21:59 因为专注。所以专业阅读(383) 评论(0) 推荐(0) 编辑

ETL的数据来源，处理，保存

摘要： ETL的数据来源，处理，保存 ETL的数据来源，处理，保存 1.ETL 数据来源：HDFS 处理方式：Mapreduce 数据保存：HBase 2.为什么保存在Hbase中数据字段格式不唯一/不相同/不固定，采用hbase的动态列的功能非常适合因为我们的分析一般情况下，是对于部分事件数据进行分析阅读全文

posted @ 2017-08-22 21:54 因为专注。所以专业阅读(432) 评论(0) 推荐(0) 编辑

再次整理关于hadoop中yarn的原理及运行

摘要：关于hadoop中yarn的运行原理整理一：对yarn的理解 1.关于yarn的组成大约分成主要的四个。 Resourcemanager，Nodemanager，Applicationmaster，container 2.Resourcemanager（RM）的理解 RM是全局资源管理器，负责整阅读全文

posted @ 2017-08-22 21:42 因为专注。所以专业阅读(235) 评论(0) 推荐(0) 编辑

因为专注。所以专业

不要因为走的太久，而忘记当初为什么出发。

公告