摘要: 基于 Eclipse 的 MapReduce 开发环境搭建 基于 Eclipse 的 MapReduce 开发环境搭建 原文连接:http://www.cnblogs.com/vincentzh/p/6055850.html 上周末本来要写这篇的,结果没想到上周末自己环境都没有搭起来,运行起来有问题 阅读全文
posted @ 2017-08-22 22:43 因为专注。所以专业 阅读(193) 评论(0) 推荐(0) 编辑
摘要: 大数据中mapreduce的核心,shuffle的理解,以及在shuffle中的优化问题 关于shuffle的过程图。 一:概述shuffle Shuffle是mapreduce的核心,链接map与reduce的中间过程。 Mapp负责过滤分发,而reduce则是归并整理,从mapp输出到reduc 阅读全文
posted @ 2017-08-22 22:32 因为专注。所以专业 阅读(1128) 评论(0) 推荐(0) 编辑
摘要: HDFS中高可用性HA的讲解 HDFS Using QJM HA使用的是分布式的日志管理方式 一:概述 1.背景 如果namenode出现问题,整个HDFS集群将不能使用。 是不是可以有两个namenode呢 一个为对外服务->active 一个处于待机->standby 他们的之间共享的元数据交 阅读全文
posted @ 2017-08-22 22:30 因为专注。所以专业 阅读(1019) 评论(0) 推荐(0) 编辑
摘要: 关于HIVE的配置 一:安装配置hive 1.检测hadoop 2.解压hive 3.修改环境 sudo vi /etc/profile 4.source以下 5.复制hive-env.sh 6.编辑hive-env.sh 7.在HDFS上创建文件夹并修改写权限 8.验证hive的安装 二:操作hi 阅读全文
posted @ 2017-08-22 22:27 因为专注。所以专业 阅读(168) 评论(0) 推荐(0) 编辑
摘要: sqoop的使用 sqoop的使用 一:导入 mysql--》hdfs 1.准备 2.导入数据 可以看到在跑yarn。 3.在HDFS上看结果 默认的地址:hdfs的家目录。 4.在HDFS上指定目录 5.指定map的个数,相同目录时,先删除原来的目录 6.查看结果 7.指定分隔符 默认是‘,’,在 阅读全文
posted @ 2017-08-22 22:25 因为专注。所以专业 阅读(259) 评论(0) 推荐(0) 编辑
摘要: Flume协作框架 Flume协作框架 1.概述 -》flume的三大功能 collecting, aggregating, and moving 收集 聚合 移动 2.框图 3.架构特点 -》on streaming data flows 基于流式的数据 数据流:job-》不断获取数据 任务流:j 阅读全文
posted @ 2017-08-22 22:23 因为专注。所以专业 阅读(139) 评论(0) 推荐(0) 编辑
摘要: Oozie协作框架 一:概述 1.大数据协作框架 2.Hadoop的任务调度 3.Oozie的三大功能 Oozie Workflow jobs Oozie Coordinator jobs Oozie Bundle 4.Oozie的架构 控制流节点 起始,分支,并发,汇合,结束 动作节点action 阅读全文
posted @ 2017-08-22 22:21 因为专注。所以专业 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 关于HBase的概述 1.hbase的特点 -》数据存储量可以达到亿级别数据维持在秒级 -》按列存储的数据库 -》能够存储上百万列 -》hbase的底层存储依赖于HDFS -》如何扩展hbase,增加DataNode节点 -》添加一台机器以后,如何保证负载均衡 -》多版本version,int值 2 阅读全文
posted @ 2017-08-22 22:19 因为专注。所以专业 阅读(157) 评论(0) 推荐(0) 编辑
摘要: HBase的安装部署以及简单使用 一:下载安装 1.下载安装 2.开启hadoop与zookeeper 3.修改配置文件hbase-env export JAVA_HOME=/opt/modules/jdk1.7.0_67 export HBASE_MANAGES_ZK=false 》不使用hbas 阅读全文
posted @ 2017-08-22 22:18 因为专注。所以专业 阅读(301) 评论(0) 推荐(0) 编辑
摘要: HBASE的读写以及client API 一:读写思想 1.系统表 hbase:namespace 存储hbase中所有的namespace的信息 hbase:meta rowkey:hbase中所有表的region的名称 column:regioninfo:region的名称,region的范围 阅读全文
posted @ 2017-08-22 22:17 因为专注。所以专业 阅读(503) 评论(0) 推荐(0) 编辑
摘要: Hbase中rowkey设计原则 1.热点问题 在某一时间段,有大量的数据同时对一个region进行操作 2.原因 对rowkey的设计不合理 对rowkey的划分不合理 3.解决方式 rowkey是hbase的读写唯一标识 最大长度是64KB。 4.核心原则 设计必须按照业务需求进行设计 5.长度 阅读全文
posted @ 2017-08-22 22:11 因为专注。所以专业 阅读(581) 评论(0) 推荐(0) 编辑
摘要: Hbase的属性 一:基本属性 1.查看属性 2.解释属性 NAME:列簇名 BLOOMFILTER:布隆过滤器,用于对storefile的过滤 共有三种类型: ROW:行健过滤 ROWCOL:行列过滤 NONE:无 VERSIONS:版本数 MIN_VERSIONS:最小版本数 TTL:版本存货活 阅读全文
posted @ 2017-08-22 22:10 因为专注。所以专业 阅读(318) 评论(0) 推荐(0) 编辑
摘要: Region的预分区 1.预分区的方式 共有四种方式 2.帮助信息 help 'create' 3.第一种方式 4.在页面上查看效果(端口号:60010) 5.第二种方式 )创建文件,并在文件中书写分区的值 )创建表 6.观察效果 7.第三种方式 但是不常使用,因为这种方式是hash值进行分区,不再 阅读全文
posted @ 2017-08-22 22:08 因为专注。所以专业 阅读(575) 评论(1) 推荐(0) 编辑
摘要: HBase的几种调优(GC策略,flush,compact,split) 一:GC的调优 1.jvm的内存 新生代:存活时间较短,一般存储刚生成的一些对象 老年代:存活时间较长,主要存储在应用程序中生命周期较长的对象 永久代:一般存储meta和class的信息 2.GC策略 Parrallel Ne 阅读全文
posted @ 2017-08-22 22:07 因为专注。所以专业 阅读(593) 评论(0) 推荐(0) 编辑
摘要: HBase的完全分布式的搭建与部署,以及多master 一:前提准备 1.设置时间同步 2.清空logs,datas 3.格式化集群 bin/hdfs namenode -format 4.重启集群 sbin/start-dfs.sh sbin/start-yarn.sh 5.删除zookeeper 阅读全文
posted @ 2017-08-22 22:06 因为专注。所以专业 阅读(336) 评论(0) 推荐(0) 编辑
摘要: HBase的数据迁移(含HDFS的数据迁移) 1.启动两个HDFS集群 hadoop0,hadoop1,都是伪分布式的集群 2.启动hadoop3的zookeeper与hbase 注意点:需要开启yarn服务,因为distcp需要yarn。 3.在hdfs上可以看到hadoop3上有表s1. 4.拷 阅读全文
posted @ 2017-08-22 22:05 因为专注。所以专业 阅读(542) 评论(0) 推荐(0) 编辑
摘要: HBase的二级索引,以及phoenix的安装(需再做一次) 一:HBase的二级索引 1.讲解 uid+ts 11111_20161126111111:查询某一uid的某一个时间段内的数据 查询某一时间段内所有用户的数据:按照时间 索引表 rowkey:ts+uid 20161126111111— 阅读全文
posted @ 2017-08-22 22:04 因为专注。所以专业 阅读(346) 评论(0) 推荐(0) 编辑
摘要: Hadoop离线项目介绍(不包括程序) Hadoop离线项目介绍(不包括程序) 一:项目场景 1.需求分析 根据用户行为数据进行程序的处理,得到结果保存到关系型数据库中 需要收集用户(系统使用者)在不同客户端上产生的用户行为数据,最终保存到hdfs上 需要明确收集字段的相关信息,而且需要考虑到后期的 阅读全文
posted @ 2017-08-22 21:59 因为专注。所以专业 阅读(383) 评论(0) 推荐(0) 编辑
摘要: ETL的数据来源,处理,保存 ETL的数据来源,处理,保存 1.ETL 数据来源:HDFS 处理方式:Mapreduce 数据保存:HBase 2.为什么保存在Hbase中 数据字段格式不唯一/不相同/不固定,采用hbase的动态列的功能非常适合 因为我们的分析一般情况下,是对于部分事件数据进行分析 阅读全文
posted @ 2017-08-22 21:54 因为专注。所以专业 阅读(432) 评论(0) 推荐(0) 编辑
摘要: 关于hadoop中yarn的运行原理整理 一:对yarn的理解 1.关于yarn的组成 大约分成主要的四个。 Resourcemanager,Nodemanager,Applicationmaster,container 2.Resourcemanager(RM)的理解 RM是全局资源管理器,负责整 阅读全文
posted @ 2017-08-22 21:42 因为专注。所以专业 阅读(235) 评论(0) 推荐(0) 编辑