随笔分类 -  hadoop

摘要:1、在map阶段对数据先求解改分片的topN,到reduce阶段再合并求解一次,求解过程利用TreeMap的排序特性,不用自己写算法。 2、样板数据,类似如下 3、code 3.1 mapper 3.2 reducer 3.3 driver 阅读全文
posted @ 2019-09-04 14:14 我是属车的 阅读(483) 评论(0) 推荐(0) 编辑
摘要:1、继承FileOutputFormat,复写getRecordWriter方法 2、实现RecordWriter 3、map 4、reducer 5、driver 阅读全文
posted @ 2019-08-31 22:50 我是属车的 阅读(939) 评论(0) 推荐(0) 编辑
摘要:利用hadoop的map和reduce排序特性实现对数据排序取TopN条数据。 代码参考:https://github.com/asker124143222/wordcount 1、样本数据,假设是订单数据,求解按订单id排序且每个订单里价格最高前三,从高到低排序。 2、求解思路 3、code 3. 阅读全文
posted @ 2019-08-31 15:08 我是属车的 阅读(505) 评论(0) 推荐(0) 编辑
摘要:1、在伪分布式基础上搭建,伪分布式搭建参见VM上Hadoop3.1伪分布式模式搭建 2、虚拟机准备,本次集群采用2.8.3版本与3.X版本差别不大,端口号所有差别 3、关闭防火墙,因为需要打开的端口太多,测试的环境,为了避免干扰先关闭防火墙 4、三台虚机之间打开ssh免密登录,账户hadoop 5、 阅读全文
posted @ 2019-08-08 16:52 我是属车的 阅读(1674) 评论(0) 推荐(0) 编辑
摘要:一、导入数据到hbase 1、配置hbase-site.xml指向hdfs 2、依赖 3、mapper 4、main 5、执行 二、从hbase获取数据进行计算 从上例中把hbase数据抽取出来计算作者出现数量 多加一个依赖 1、mapper 2、reducer 3、main 4、执行 三、从hba 阅读全文
posted @ 2019-04-25 23:53 我是属车的 阅读(853) 评论(0) 推荐(0) 编辑
摘要:内容来自于《HBASE权威指南》,留存备查,由于版本的原因,可能已经有变化,在应用前兼容性需要测试。 阅读全文
posted @ 2019-04-15 22:20 我是属车的 阅读(248) 评论(0) 推荐(0) 编辑
摘要:1、首先生成自定义过滤器,生成jar包,然后拷贝到服务器hbase目录的lib下。 1.1 自定义过滤器CustomFilter 1.2 MyFilterProtos是通过protobuf生成的,这里需要注意hbase使用的是protobuf2.5.0版本,不要使用高于2.5.0版本的protobu 阅读全文
posted @ 2019-04-14 19:07 我是属车的 阅读(1404) 评论(0) 推荐(0) 编辑
摘要:输出结果: 阅读全文
posted @ 2019-04-13 21:59 我是属车的 阅读(2048) 评论(0) 推荐(0) 编辑
摘要:用于跳过整个行键,需要和其他过滤器一起使用,本例SkipFilter和ValueFilter过滤器组合使用过滤不符合条件的行, 如果不配合SkipFiter,ValueFilter只过滤单元值包含的列。 表中数据: 输出结果:ValueFilter过滤只过滤某个Cell,配合SkipFilter过滤 阅读全文
posted @ 2019-04-13 17:12 我是属车的 阅读(635) 评论(0) 推荐(0) 编辑
摘要:在hbase2.0以前分页过滤必须以上一次的最后一行+空字节数组作为下一次的起始行, 因为scan扫描的时候是包含起始行的,为了既能准确定位起始行,但又不重复把上一次的最末一行加入下一页, 所以,权威指南里才有了加上空字节数组的处理。 hbase2.0以后,新的api是withStartRow(by 阅读全文
posted @ 2019-04-12 23:01 我是属车的 阅读(1300) 评论(0) 推荐(0) 编辑
摘要:hbase的put(List<Put> puts),delete(List<Delete> deletes),get(List<Get> gets)都是基于batch()实现的。 阅读全文
posted @ 2019-04-07 22:19 我是属车的 阅读(2298) 评论(0) 推荐(0) 编辑
摘要:在高并发的情况下,对数据row1 column=cf1:qual1, timestamp=1, value=val1的插入或者更新可能会导致非预期的情况, 例如:原本客户端A需要在value=val1的条件下将value更新成val_A,高并发下客户端B可能抢先将数据value=val1更新成val 阅读全文
posted @ 2019-04-05 22:29 我是属车的 阅读(2557) 评论(0) 推荐(0) 编辑
摘要:本文主要是hbase的表操作、数据操作、数据查询过滤等,如果对JDBC或ADO有了解,容易理解HBASE API。 hbase版本是2.0。 1、为了方便先贴helper的部分代码(文末git上有完整的测试代码),主要是为了复用Connection。 初始化,用来初始化hbase配置,连接hbase 阅读全文
posted @ 2019-03-30 12:49 我是属车的 阅读(4613) 评论(0) 推荐(1) 编辑
摘要:1、安装 在官方镜像站点下载hbase2.0,地址:https://www.apache.org/dyn/closer.lua/hbase/ 设置好JAVA_HOME环境变量,或者直接在hbase的配置文件(conf/hbase-env.sh)里设置JAVA_HOME 设置HBASE_HOME,这个 阅读全文
posted @ 2019-03-17 12:23 我是属车的 阅读(254) 评论(0) 推荐(0) 编辑
摘要:1、用hive查询,而不进入hive cli,查询后的值可以保存到文件中 2、查找某个配置属性 3、执行外部脚本 阅读全文
posted @ 2019-03-12 23:08 我是属车的 阅读(321) 评论(0) 推荐(1) 编辑
摘要:1、内连接 2、外连接 全连接,两边都全显示 3、半连接 4、map连接 5、子查询,Hive只支持在FROM子句中使用子查询,子查询必须有名字,并且列必须唯一:SELECT ... FROM(subquery) name ... 某些情况子查询可以出现在where子句中,本文中第三点半连接就是子查 阅读全文
posted @ 2019-03-09 22:27 我是属车的 阅读(2132) 评论(2) 推荐(0) 编辑
摘要:1、order by 是对数据进行全排序,属于标准排序语句 2、sort by 对数据局部排序,是hive的扩展排序语句 sort by不是全局排序,其在数据进入reducer前完成排序. 因此,如果用sort by进行排序,并且设置mapred.reduce.tasks>1, 则sort by只保 阅读全文
posted @ 2019-03-09 16:35 我是属车的 阅读(1537) 评论(0) 推荐(0) 编辑
摘要:1、load data 2、insert 3、多表插入,在单表插入的时候,from子句可以放在前面,这个特性在多表插入的时候被应用 4、使用CTAS创建表并导入数据,create table ... as select ... 阅读全文
posted @ 2019-03-08 23:02 我是属车的 阅读(196) 评论(0) 推荐(0) 编辑
摘要:1、创建分区表 修改表: 1.1、加载数据 partition的分区字段体现在存储目录上,与文件中的实际存储字段没有关系。 1.2、显示分区信息 1.3、分区列属于表的正式列,但是文件中没有存储分区列信息。分区列的信息是从目录中读取的。 2、分桶表 2.1、检查分桶属性,设置分桶属性是为了使用hiv 阅读全文
posted @ 2019-03-05 22:57 我是属车的 阅读(1381) 评论(0) 推荐(0) 编辑
摘要:1、下载地址:http://mirrors.hust.edu.cn/apache/ 2、conf配置 解压后进入hive的conf目录,新建配置文件,设定hive元数据存储的数据库等 因为用的是mysql作为元数据存储,将mysql连接jar包放入hive的lib目录下:mysql-connecto 阅读全文
posted @ 2019-03-01 16:51 我是属车的 阅读(311) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示