09 2015 档案
摘要:package test091201;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.hadoop.conf.Configuration;impo...
阅读全文
摘要:Hive集成HBase可以有效利用HBase数据库的存储特性,如行更新和列索引等。在集成的过程中注意维持HBase jar包的一致性。Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive_hbase-handler.jar工具类。 整合hive...
阅读全文
摘要:zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的regi...
阅读全文
摘要:1.处理hadoop的namenode宕机 处理措施:进入hadoop的bin目录,重启namenode服务 操作命令:cd path/to/hadoop/bin ./hadoop-daemon.sh start namenode2.处理hadoop的jobtacker宕机 处理措施:进...
阅读全文
摘要:1.HBase预分区HBase在创建表时,默认会自动创建一个Region分区。在导入数据时,所有客户端都向这个Region写数据,直到这个Region足够大才进行切分。这样在大量数据并行写入时,容易引起单点负载过高,从而影响入库性能。一个好的方法是在建立HBase表时预先分配数个Region,这样写...
阅读全文
摘要:比较运算符 CompareFilter.CompareOp比较运算符用于定义比较关系,可以有以下几类值供选择:EQUAL 相等GREATER 大于GREATER_OR_EQUAL 大于等于LESS 小于LESS_OR_EQUAL 小于等于NOT_EQUAL 不等于比较器 ByteArrayComp...
阅读全文
摘要:对于数据操作,HBase支持四类主要的数据操作,分别是:Put :增加一行,修改一行Delete :删除一行,删除指定列族,删除指定column的多个版本,删除指定column的制定版本等Get :获取指定行的所有信息,获取指定行和指定列族的所有colunm,获取指定column,获取指定colum...
阅读全文
摘要:1.Row Key基本原则是:(1).由于读取数据只能依靠RowKey,所以应把经常使用到的字段作为行键{如手机号+时间戳拼接的字符串} (2).RowKey长度越短越好,最好不要超过16个字节。从表的形式看,主要有列少行多的高表和行多列少的宽表,一般情况高表更有优势,因为HBase只能按行拆分。 ...
阅读全文
摘要:1.进入hbase命令行./hbase shell2.基本命令 显示hbase中的表Listlist 查询user表中的所有信息Scanscan 'users' 清空user表中的数据Truncate (等同于disable + drop + create)truncate 'users' ...
阅读全文
摘要:HBase表备份其实就是先将Table导出,再导入两个过程。导出过程//hbase org.apache.hadoop.hbase.mapreduce.Driver export 表名 数据文件位置//数据文件位置:可以是本地文件目录,也可以是hdfs路径//当其为前者时,必须加上前缀file://...
阅读全文
摘要:HBase和Hive的异同之处?共同点:HBase与Hive都是架构在Hadoop之上,底层存储都是使用HDFS区别: 1). Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统。HBase是为了支持弥补Hadoop对实时操作的缺陷的项目。 2).hive...
阅读全文
摘要:Row Key类似于MySQL中的主键,HBase天然自带的,在创建时不需要显示指定。HBase不支持条件查询和Order by等查询,读取记录只有三种方式:①. 通过单个Row key访问【速度很快,因为存在着索引机制】②. 给定Row key的range ③. 全表扫描Row key按照字典序存...
阅读全文
摘要:1).上传,解压,重命名,修改环境变量/etc/profile2).修改 hbase-env.sh 文件export JAVA_HOME=/usr/java/jdk1.7.0_27 //Java 安装路径export HBASE_CLASSPATH=/hadoop/hbase-0.96.2 //HB...
阅读全文
摘要:Client使用HBase RPC机制与HMaster和HRegionServer进行通信Client与HMaster进行通信进行管理类操作Client与HRS进行数据读写类操作包含访问HBase的接口,并维护缓存cache来加快对HBase的访问,比如HR的位置信息。在启动一个Client到HBa...
阅读全文
摘要:1.Jvm重用JVM重用不是指同一Job的两个或两个以上的Task同时运行于同一JVM上,而是 N个Task按顺序在同一个Jvm上运行,即省去了Jvm关闭和再重启的时间。N值可以在Hadoop的mapre-site.xml文件mapreduce.job.jvm.numtasks(默认1)属性进行设置...
阅读全文
摘要:1.jvm重用:详见Hadoop性能调优2.并行执行即同时执行hive的多个阶段。hive在执行过程,将一个查询转化成一个或者多个阶段,而这些阶段可能并非完全相互依赖的,也就是说可以并行执行的,这样可能使得整个job的执行时间缩短hive执行开启:set hive.exec.parallel=tru...
阅读全文
摘要:hadoop调度器的作用是将系统中空闲的资源按一定策略分配给作业。调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,分别为:1.基于队列的FIFO(先进先出) hadoop默认的资源调度器。优点:简单明了。缺点:忽略了不同作业的需求差异。2.计算...
阅读全文
摘要:1.入口$HIVE_HOME/bin/ext/cli.sh 调用org.apache.hadoop.hive.cli.CliDriver类进行初始化过程 处理-e,-f,-h等信息,如果是-h,打印提示信息,并退出 读取hive的配置文件和$HIVE_HOME/bin/.hiverc文件,设置Hiv...
阅读全文
摘要:hive.exec.script.maxerrsize:一个map/reduce任务允许打印到标准错误里的最大字节数,为了防止脚本把分区日志填满,默认是100000;hive.exec.script.allow.partial.consumption:hive是否允许脚本不从标准输入中读取任何内容就...
阅读全文
摘要:字段解释: product_no:用户手机号; lac_id:用户所在基站; start_time:用户在此基站的开始时间; staytime:用户在此基站的逗留时间。product_no lac_id moment start_time user_id county_id staytime cit...
阅读全文
摘要:请参照wordcount实现一个自己的MapReduce,需求为: a. 输入文件格式: xxx,xxx,xxx,xxx,xxx,xxx,xxx b. 输出文件格式: xxx,20 xxx,30 xxx.40 c. 功能:根据命令行参数统计输入文件中指定关键字出现的次数,并展示...
阅读全文
摘要:1).Hive中Select Top N的实现Hive中使用 Order by + Limit 可以很容易地实现Select Top N。但是在Hive中Order by只能使用1个Reduce,如果表的数据量很大,那么Order by就会力不从心。相对的,Sort by可以启动多个Reduce,每...
阅读全文

浙公网安备 33010602011771号