上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 18 下一页
摘要: 1.进入Hbase shell命令 $>hbase shell 2.建议参照"help"命令 3.shell命令 --> create创建表命令: >create 'table_name','baseinfo','address' 其中表名是table_name,列簇是baseinfo和addres 阅读全文
posted @ 2018-08-04 10:15 Coding_Now 阅读(7768) 评论(0) 推荐(1) 编辑
摘要: 1. HBase是HDFS上面向列的分布式数据库 HBase首先是数据库,分布式的,面向列的,<首选在hdfs基础上> Google发布三篇论文:GFS,MapReduce,BigTable开启分布式存储和计算的纪元 hdfs+mapreduce(Hadoop)解决离线分析;Hbase解决实时处理业 阅读全文
posted @ 2018-08-04 09:37 Coding_Now 阅读(167) 评论(0) 推荐(0) 编辑
摘要: step1:开启zookeeper服务 $>zkServer.sh start step2:开启journalnode守护进程(在qjournal协议指定的节点上执行) $>hadoop-daemon.sh start journalnode step3:开启namenode守护进程(在nn1和nn 阅读全文
posted @ 2018-07-28 13:06 Coding_Now 阅读(1123) 评论(0) 推荐(0) 编辑
摘要: HA:高可用 1.Quorum Journal Manager:群体日志管理 个数2n+1个,保证节点宕机次数为(n-1)/2;一般情况下,JNS在slave节点开启; 2.HA的namenode个数:一定是两个:nn1和nn2; 3.搭建HA步骤: 0.创建软连接:指向hadoop_cluster 阅读全文
posted @ 2018-07-28 13:00 Coding_Now 阅读(706) 评论(0) 推荐(0) 编辑
摘要: 多表连接:将连接键(id)作为k2,v2采用自定义的Writable,writable中包含以下字段:标志位字段+业务字段(可能多个);reduce端做笛卡尔积。 自连接(单表关联):对于给定的数据的key value 调换,并作些标记予以区别。 map端连接: 1.前提条件:小表尽可能小,一般情况 阅读全文
posted @ 2018-07-28 12:56 Coding_Now 阅读(654) 评论(0) 推荐(0) 编辑
摘要: 1.【Driver.class】-- Job job = Job.getInstance(conf); -->【job.class】getInstance(conf) --> new JobConf(conf) //构建一个空集群配置对象 说明:将默认configuration(4个配置文件)包装成 阅读全文
posted @ 2018-07-28 12:49 Coding_Now 阅读(1819) 评论(0) 推荐(0) 编辑
摘要: 1.ResourceManager(资源管理器RM)常驻守护进程: 管理集群资源,负责全局资源的监控、分配和管理; 接收来自nodemanager的心跳信息,进行整体资源的汇总; 监控Applicacation Master的开启和创建; 2.Nodemanager(节点管理器NM)常驻守护进程: 阅读全文
posted @ 2018-07-28 12:45 Coding_Now 阅读(536) 评论(0) 推荐(0) 编辑
摘要: 描述的是reduce个数大于1的情况。全排序就是生存的多个文件里面都是按顺序的所有的文件的数据也是按顺序的。 1.思路 a.修改分区partition算法,默认是HashPartition; 例如: public int getPartition(LongWritable key, Text val 阅读全文
posted @ 2018-07-28 12:32 Coding_Now 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 1.WritableComparable用途: WritableComparable可以相互比较,通常通过Comparators(比较器)进行比较。 在Hadoop Map-Reduce框架中用作键的任何类型都应该实现这个接口,因为要按键做排序; 2.WritableComparable和Writa 阅读全文
posted @ 2018-07-28 12:27 Coding_Now 阅读(443) 评论(0) 推荐(0) 编辑
摘要: Hadoop的MapReduce计算模型的Key,Value值都是采用的自定义Writable类型,我们也可以自定义Writable来实现不同的业务需求。 1.定义: a.基于DataInput和DataOutput实现简单,高效,序列协议的可序列化对象; b.在hadoop的MapReduce计算 阅读全文
posted @ 2018-07-28 12:24 Coding_Now 阅读(879) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 18 下一页