随笔档案「2015年9月」 - skyl夜

数据导入(二):MapReduce

摘要：package test091201;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.hadoop.conf.Configuration;impo... 阅读全文

posted @ 2015-09-30 14:53 skyl夜阅读(538) 评论(0) 推荐(0)

数据导入(一):Hive On HBase

摘要：Hive集成HBase可以有效利用HBase数据库的存储特性，如行更新和列索引等。在集成的过程中注意维持HBase jar包的一致性。Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信，相互通信主要是依靠hive_hbase-handler.jar工具类。整合hive... 阅读全文

posted @ 2015-09-30 14:37 skyl夜阅读(5127) 评论(0) 推荐(0)

HBase参数优化

摘要：zookeeper.session.timeout默认值：3分钟(180000ms)说明：RegionServer与Zookeeper间的连接超时时间。当超时时间到后，ReigonServer会被Zookeeper从RS集群清单中移除，HMaster收到移除通知后，会对这台server负责的regi... 阅读全文

posted @ 2015-09-28 21:53 skyl夜阅读(776) 评论(0) 推荐(0)

Hadoop运维手记

摘要：1.处理hadoop的namenode宕机处理措施：进入hadoop的bin目录，重启namenode服务操作命令：cd path/to/hadoop/bin ./hadoop-daemon.sh start namenode2.处理hadoop的jobtacker宕机处理措施：进... 阅读全文

posted @ 2015-09-26 17:02 skyl夜阅读(441) 评论(0) 推荐(0)

HBase优化相关

摘要：1.HBase预分区HBase在创建表时，默认会自动创建一个Region分区。在导入数据时，所有客户端都向这个Region写数据，直到这个Region足够大才进行切分。这样在大量数据并行写入时，容易引起单点负载过高，从而影响入库性能。一个好的方法是在建立HBase表时预先分配数个Region，这样写... 阅读全文

posted @ 2015-09-16 20:07 skyl夜阅读(2748) 评论(0) 推荐(0)

HBase Filter及对应Shell

摘要：比较运算符 CompareFilter.CompareOp比较运算符用于定义比较关系，可以有以下几类值供选择：EQUAL 相等GREATER 大于GREATER_OR_EQUAL 大于等于LESS 小于LESS_OR_EQUAL 小于等于NOT_EQUAL 不等于比较器 ByteArrayComp... 阅读全文

posted @ 2015-09-14 17:38 skyl夜阅读(6854) 评论(0) 推荐(1)

HBase API 基础操作

摘要：对于数据操作，HBase支持四类主要的数据操作，分别是：Put ：增加一行，修改一行Delete ：删除一行，删除指定列族，删除指定column的多个版本，删除指定column的制定版本等Get ：获取指定行的所有信息，获取指定行和指定列族的所有colunm，获取指定column，获取指定colum... 阅读全文

posted @ 2015-09-12 22:22 skyl夜阅读(13840) 评论(1) 推荐(3)

HBase相关概念

摘要：1.Row Key基本原则是：(1).由于读取数据只能依靠RowKey，所以应把经常使用到的字段作为行键{如手机号+时间戳拼接的字符串} (2).RowKey长度越短越好，最好不要超过16个字节。从表的形式看，主要有列少行多的高表和行多列少的宽表，一般情况高表更有优势，因为HBase只能按行拆分。 ... 阅读全文

posted @ 2015-09-11 20:22 skyl夜阅读(577) 评论(0) 推荐(0)

HBase Shell相关

摘要：1.进入hbase命令行./hbase shell2.基本命令显示hbase中的表Listlist 查询user表中的所有信息Scanscan 'users' 清空user表中的数据Truncate (等同于disable + drop + create)truncate 'users' ... 阅读全文

posted @ 2015-09-11 19:46 skyl夜阅读(637) 评论(0) 推荐(0)

HBase表的备份

摘要：HBase表备份其实就是先将Table导出，再导入两个过程。导出过程//hbase org.apache.hadoop.hbase.mapreduce.Driver export 表名数据文件位置//数据文件位置：可以是本地文件目录,也可以是hdfs路径//当其为前者时,必须加上前缀file://... 阅读全文

posted @ 2015-09-11 17:26 skyl夜阅读(4906) 评论(1) 推荐(2)

HBase相关问题

摘要：HBase和Hive的异同之处?共同点：HBase与Hive都是架构在Hadoop之上，底层存储都是使用HDFS区别： 1). Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统。HBase是为了支持弥补Hadoop对实时操作的缺陷的项目。 2).hive... 阅读全文

posted @ 2015-09-11 13:04 skyl夜阅读(493) 评论(0) 推荐(0)

HBase数据模型

摘要：Row Key类似于MySQL中的主键，HBase天然自带的，在创建时不需要显示指定。HBase不支持条件查询和Order by等查询，读取记录只有三种方式：①. 通过单个Row key访问【速度很快,因为存在着索引机制】②. 给定Row key的range ③. 全表扫描Row key按照字典序存... 阅读全文

posted @ 2015-09-10 17:33 skyl夜阅读(880) 评论(0) 推荐(0)

HBase安装过程

摘要：1).上传，解压，重命名，修改环境变量/etc/profile2).修改 hbase-env.sh 文件export JAVA_HOME=/usr/java/jdk1.7.0_27 //Java 安装路径export HBASE_CLASSPATH=/hadoop/hbase-0.96.2 //HB... 阅读全文

posted @ 2015-09-09 21:38 skyl夜阅读(374) 评论(0) 推荐(0)

HBase物理模型

摘要：Client使用HBase RPC机制与HMaster和HRegionServer进行通信Client与HMaster进行通信进行管理类操作Client与HRS进行数据读写类操作包含访问HBase的接口，并维护缓存cache来加快对HBase的访问，比如HR的位置信息。在启动一个Client到HBa... 阅读全文

posted @ 2015-09-09 15:43 skyl夜阅读(917) 评论(0) 推荐(0)

Hadoop性能调优

摘要：1.Jvm重用JVM重用不是指同一Job的两个或两个以上的Task同时运行于同一JVM上，而是 N个Task按顺序在同一个Jvm上运行，即省去了Jvm关闭和再重启的时间。N值可以在Hadoop的mapre-site.xml文件mapreduce.job.jvm.numtasks(默认1)属性进行设置... 阅读全文

posted @ 2015-09-07 15:20 skyl夜阅读(2131) 评论(0) 推荐(1)

Hive性能调优

摘要：1.jvm重用：详见Hadoop性能调优2.并行执行即同时执行hive的多个阶段。hive在执行过程，将一个查询转化成一个或者多个阶段，而这些阶段可能并非完全相互依赖的，也就是说可以并行执行的，这样可能使得整个job的执行时间缩短hive执行开启：set hive.exec.parallel=tru... 阅读全文

posted @ 2015-09-07 15:00 skyl夜阅读(990) 评论(0) 推荐(0)

Hadoop资源调度器

摘要：hadoop调度器的作用是将系统中空闲的资源按一定策略分配给作业。调度器是一个可插拔的模块，用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种，分别为：1.基于队列的FIFO(先进先出) hadoop默认的资源调度器。优点：简单明了。缺点：忽略了不同作业的需求差异。2.计算... 阅读全文

posted @ 2015-09-06 15:16 skyl夜阅读(3485) 评论(0) 推荐(0)

Hive的执行生命周期

摘要：1.入口$HIVE_HOME/bin/ext/cli.sh 调用org.apache.hadoop.hive.cli.CliDriver类进行初始化过程处理-e,-f,-h等信息，如果是-h，打印提示信息，并退出读取hive的配置文件和$HIVE_HOME/bin/.hiverc文件，设置Hiv... 阅读全文

posted @ 2015-09-04 14:22 skyl夜阅读(2598) 评论(0) 推荐(0)

Hive配置项的含义详解

摘要：hive.exec.script.maxerrsize：一个map/reduce任务允许打印到标准错误里的最大字节数，为了防止脚本把分区日志填满，默认是100000；hive.exec.script.allow.partial.consumption：hive是否允许脚本不从标准输入中读取任何内容就... 阅读全文

posted @ 2015-09-03 16:28 skyl夜阅读(5484) 评论(0) 推荐(2)

MR案例：基站相关01

摘要：字段解释： product_no：用户手机号； lac_id：用户所在基站； start_time：用户在此基站的开始时间； staytime：用户在此基站的逗留时间。product_no lac_id moment start_time user_id county_id staytime cit... 阅读全文

posted @ 2015-09-03 14:15 skyl夜阅读(1061) 评论(0) 推荐(0)

MR案例：WordCount改写

摘要：请参照wordcount实现一个自己的MapReduce，需求为： a. 输入文件格式： xxx,xxx,xxx,xxx,xxx,xxx,xxx b. 输出文件格式： xxx,20 xxx,30 xxx.40 c. 功能：根据命令行参数统计输入文件中指定关键字出现的次数，并展示... 阅读全文

posted @ 2015-09-02 21:47 skyl夜阅读(1390) 评论(0) 推荐(0)

Hive相关随笔

摘要：1).Hive中Select Top N的实现Hive中使用 Order by + Limit 可以很容易地实现Select Top N。但是在Hive中Order by只能使用1个Reduce，如果表的数据量很大，那么Order by就会力不从心。相对的，Sort by可以启动多个Reduce，每... 阅读全文

posted @ 2015-09-01 16:36 skyl夜阅读(2783) 评论(0) 推荐(1)

09 2015 档案

公告