摘要: 1 编写自己的udf方法hello pom配置 2 下载hive源码 源码下载:http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0-src.tar.gz 源码下载:http://archive.cloudera.com/cdh5/cd 阅读全文
posted @ 2019-02-22 18:56 Questions张 阅读(570) 评论(0) 推荐(0) 编辑
摘要: 1 创建表 hive命令行操作 2 造数据 shanxi.txt hunan.txt 3 导入数据 hive命令行操作 4 查询hive数据 hive表结构 hive> describe extended emp; 查询hive分区数据 hive> select * from emp where p 阅读全文
posted @ 2019-02-22 17:38 Questions张 阅读(1155) 评论(0) 推荐(0) 编辑
摘要: 1 官网内容 2 看一张图一目了然 3 详细配置 source配置文件 sink1配置文件 sink2配置 4 启动服务 5 效果测试 6 总结,从效果来看sink2挂了之后,数据发往sink1,实现了失败迁移的功能。 阅读全文
posted @ 2019-02-22 13:33 Questions张 阅读(453) 评论(0) 推荐(0) 编辑
摘要: 1 官网内容 2 找一个图来理解一目了然 3 详细配置 sink2配置 4启动服务 5 查看效果 6 总结,从效果上来看实现了负载,选择的是轮询算法,其他的大家可以多测试一下 阅读全文
posted @ 2019-02-22 13:28 Questions张 阅读(517) 评论(0) 推荐(0) 编辑
摘要: 1 官网内容 上面的配置是r1获取到的内容会同时复制到c1 c2 c3 三个channel里面 2 详细配置信息 3 查看消费情况 4 查看tail的文件内容 4 总结 应该是启动了两次的原因,实际上是把文件重复两次的发送到了每个sink里面,实现了实验要求 阅读全文
posted @ 2019-02-22 13:17 Questions张 阅读(522) 评论(0) 推荐(0) 编辑
摘要: 1 官网内容 上面配置的是根据不同的heder当中state值走不同的channels,如果是CZ就走c1 如果是US就走c2 c3 其他默认走c4 2 我的详细配置信息 一个监听http端口 然后 配置两个channel,根据不同的Header中的state值走不同的channel 监听sourc 阅读全文
posted @ 2019-02-22 13:13 Questions张 阅读(577) 评论(0) 推荐(0) 编辑
摘要: 1 例如下图 2 操作截图 替换所有的exec-avro-agent-Load-balance 为 a1 3 效果截图 阅读全文
posted @ 2019-02-22 12:10 Questions张 阅读(938) 评论(0) 推荐(0) 编辑