hadoop - 随笔分类 - 我是属车的

hadoop mapreduce求解有序TopN（高效模式）

摘要：1、在map阶段对数据先求解改分片的topN，到reduce阶段再合并求解一次，求解过程利用TreeMap的排序特性，不用自己写算法。 2、样板数据，类似如下 3、code 3.1 mapper 3.2 reducer 3.3 driver 阅读全文

posted @ 2019-09-04 14:14 我是属车的阅读(505) 评论(0) 推荐(0)

hadoop 自定义OutputFormat

摘要：1、继承FileOutputFormat，复写getRecordWriter方法 2、实现RecordWriter 3、map 4、reducer 5、driver 阅读全文

posted @ 2019-08-31 22:50 我是属车的阅读(952) 评论(0) 推荐(0)

hadoop mapreduce求解有序TopN

摘要：利用hadoop的map和reduce排序特性实现对数据排序取TopN条数据。代码参考：https://github.com/asker124143222/wordcount 1、样本数据，假设是订单数据，求解按订单id排序且每个订单里价格最高前三，从高到低排序。 2、求解思路 3、code 3. 阅读全文

posted @ 2019-08-31 15:08 我是属车的阅读(532) 评论(0) 推荐(0)

hadoop 完全分布式集群搭建

摘要：1、在伪分布式基础上搭建，伪分布式搭建参见VM上Hadoop3.1伪分布式模式搭建 2、虚拟机准备，本次集群采用2.8.3版本与3.X版本差别不大，端口号所有差别 3、关闭防火墙，因为需要打开的端口太多，测试的环境，为了避免干扰先关闭防火墙 4、三台虚机之间打开ssh免密登录，账户hadoop 5、阅读全文

posted @ 2019-08-08 16:52 我是属车的阅读(1698) 评论(0) 推荐(0)

mapreduce方式操作hbase

摘要：一、导入数据到hbase 1、配置hbase-site.xml指向hdfs 2、依赖 3、mapper 4、main 5、执行二、从hbase获取数据进行计算从上例中把hbase数据抽取出来计算作者出现数量多加一个依赖 1、mapper 2、reducer 3、main 4、执行三、从hba 阅读全文

posted @ 2019-04-25 23:53 我是属车的阅读(867) 评论(0) 推荐(0)

hbase 过滤器属性及其兼容性

摘要：内容来自于《HBASE权威指南》，留存备查，由于版本的原因，可能已经有变化，在应用前兼容性需要测试。阅读全文

posted @ 2019-04-15 22:20 我是属车的阅读(262) 评论(0) 推荐(0)

hbase 自定义过滤器

摘要：1、首先生成自定义过滤器，生成jar包，然后拷贝到服务器hbase目录的lib下。 1.1 自定义过滤器CustomFilter 1.2 MyFilterProtos是通过protobuf生成的，这里需要注意hbase使用的是protobuf2.5.0版本，不要使用高于2.5.0版本的protobu 阅读全文

posted @ 2019-04-14 19:07 我是属车的阅读(1429) 评论(0) 推荐(0)

hbase 多个过滤器组合（列表）

摘要：输出结果：阅读全文

posted @ 2019-04-13 21:59 我是属车的阅读(2118) 评论(0) 推荐(0)

hbase 跳转过滤器skipfilter

摘要：用于跳过整个行键，需要和其他过滤器一起使用，本例SkipFilter和ValueFilter过滤器组合使用过滤不符合条件的行，如果不配合SkipFiter，ValueFilter只过滤单元值包含的列。表中数据：输出结果：ValueFilter过滤只过滤某个Cell，配合SkipFilter过滤阅读全文

posted @ 2019-04-13 17:12 我是属车的阅读(647) 评论(0) 推荐(0)

hbase 分页过滤（新老API的差别）

摘要：在hbase2.0以前分页过滤必须以上一次的最后一行+空字节数组作为下一次的起始行，因为scan扫描的时候是包含起始行的，为了既能准确定位起始行，但又不重复把上一次的最末一行加入下一页，所以，权威指南里才有了加上空字节数组的处理。 hbase2.0以后，新的api是withStartRow(by 阅读全文

posted @ 2019-04-12 23:01 我是属车的阅读(1323) 评论(0) 推荐(0)

hbase batch批处理

摘要：hbase的put(List<Put> puts)，delete(List<Delete> deletes)，get(List<Get> gets)都是基于batch()实现的。阅读全文

posted @ 2019-04-07 22:19 我是属车的阅读(2350) 评论(0) 推荐(0)

hbase 原子操作cas

摘要：在高并发的情况下，对数据row1 column=cf1:qual1, timestamp=1, value=val1的插入或者更新可能会导致非预期的情况，例如：原本客户端A需要在value=val1的条件下将value更新成val_A，高并发下客户端B可能抢先将数据value=val1更新成val 阅读全文

posted @ 2019-04-05 22:29 我是属车的阅读(2672) 评论(0) 推荐(0)

hbase 基本的JavaApi 数据操作及数据过滤（filter）

摘要：本文主要是hbase的表操作、数据操作、数据查询过滤等，如果对JDBC或ADO有了解，容易理解HBASE API。 hbase版本是2.0。 1、为了方便先贴helper的部分代码（文末git上有完整的测试代码），主要是为了复用Connection。初始化，用来初始化hbase配置，连接hbase 阅读全文

posted @ 2019-03-30 12:49 我是属车的阅读(4644) 评论(0) 推荐(1)

hbase 安装笔记

摘要：1、安装在官方镜像站点下载hbase2.0，地址：https://www.apache.org/dyn/closer.lua/hbase/ 设置好JAVA_HOME环境变量，或者直接在hbase的配置文件(conf/hbase-env.sh)里设置JAVA_HOME 设置HBASE_HOME，这个阅读全文

posted @ 2019-03-17 12:23 我是属车的阅读(287) 评论(0) 推荐(0)

hive 一次性命令

摘要：1、用hive查询，而不进入hive cli，查询后的值可以保存到文件中 2、查找某个配置属性 3、执行外部脚本阅读全文

posted @ 2019-03-12 23:08 我是属车的阅读(329) 评论(0) 推荐(1)

hive 连接（join）查询

摘要：1、内连接 2、外连接全连接，两边都全显示 3、半连接 4、map连接 5、子查询，Hive只支持在FROM子句中使用子查询，子查询必须有名字，并且列必须唯一：SELECT ... FROM(subquery) name ... 某些情况子查询可以出现在where子句中，本文中第三点半连接就是子查阅读全文

posted @ 2019-03-09 22:27 我是属车的阅读(2168) 评论(2) 推荐(0)

hive 排序和聚集

摘要：1、order by 是对数据进行全排序，属于标准排序语句 2、sort by 对数据局部排序，是hive的扩展排序语句 sort by不是全局排序，其在数据进入reducer前完成排序. 因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保阅读全文

posted @ 2019-03-09 16:35 我是属车的阅读(1552) 评论(0) 推荐(0)

hive 导入数据

摘要：1、load data 2、insert 3、多表插入，在单表插入的时候，from子句可以放在前面，这个特性在多表插入的时候被应用 4、使用CTAS创建表并导入数据，create table ... as select ... 阅读全文

posted @ 2019-03-08 23:02 我是属车的阅读(201) 评论(0) 推荐(0)

hive 分区表和分桶表

摘要：1、创建分区表修改表： 1.1、加载数据 partition的分区字段体现在存储目录上，与文件中的实际存储字段没有关系。 1.2、显示分区信息 1.3、分区列属于表的正式列，但是文件中没有存储分区列信息。分区列的信息是从目录中读取的。 2、分桶表 2.1、检查分桶属性，设置分桶属性是为了使用hiv 阅读全文

posted @ 2019-03-05 22:57 我是属车的阅读(1401) 评论(0) 推荐(0)

hive 安装

摘要：1、下载地址：http://mirrors.hust.edu.cn/apache/ 2、conf配置解压后进入hive的conf目录，新建配置文件，设定hive元数据存储的数据库等因为用的是mysql作为元数据存储，将mysql连接jar包放入hive的lib目录下：mysql-connecto 阅读全文

posted @ 2019-03-01 16:51 我是属车的阅读(330) 评论(0) 推荐(0)

我是属车的

随笔分类 - hadoop

公告