上一页 1 ··· 28 29 30 31 32 33 34 35 36 ··· 42 下一页
摘要: 1 购买3台阿里云服务 2 配置好ssh连接客户端 根据自己情况连接 3 安装好MySQL5.7 跳过,见之前博客 安装在hadoop001上 4 设置好Hosts文件 3台机器同时操作 5 关闭防火墙 3台机器同时操作 6 安装jdk1.8 3台同时操作 cd /mnt/software tar 阅读全文
posted @ 2019-02-25 17:03 Questions张 阅读(470) 评论(0) 推荐(0) 编辑
摘要: 1 涉及到的API 2 代码实现 定义ralation 定义Schema以及读取数据代码 类型转换类 3 依赖的pom文件配置 4测试代码以及测试文件数据 数据 参考文献:http://sparkdatasourceapi.blogspot.com/2016/10/spark-data-source 阅读全文
posted @ 2019-02-25 12:12 Questions张 阅读(2775) 评论(3) 推荐(1) 编辑
摘要: 阅读全文
posted @ 2019-02-25 07:58 Questions张 阅读(404) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-02-23 16:57 Questions张 阅读(232) 评论(0) 推荐(0) 编辑
摘要: 1 编写自己的udf方法hello pom配置 2 下载hive源码 源码下载:http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0-src.tar.gz 源码下载:http://archive.cloudera.com/cdh5/cd 阅读全文
posted @ 2019-02-22 18:56 Questions张 阅读(570) 评论(0) 推荐(0) 编辑
摘要: 1 创建表 hive命令行操作 2 造数据 shanxi.txt hunan.txt 3 导入数据 hive命令行操作 4 查询hive数据 hive表结构 hive> describe extended emp; 查询hive分区数据 hive> select * from emp where p 阅读全文
posted @ 2019-02-22 17:38 Questions张 阅读(1155) 评论(0) 推荐(0) 编辑
摘要: 1 官网内容 2 看一张图一目了然 3 详细配置 source配置文件 sink1配置文件 sink2配置 4 启动服务 5 效果测试 6 总结,从效果来看sink2挂了之后,数据发往sink1,实现了失败迁移的功能。 阅读全文
posted @ 2019-02-22 13:33 Questions张 阅读(453) 评论(0) 推荐(0) 编辑
摘要: 1 官网内容 2 找一个图来理解一目了然 3 详细配置 sink2配置 4启动服务 5 查看效果 6 总结,从效果上来看实现了负载,选择的是轮询算法,其他的大家可以多测试一下 阅读全文
posted @ 2019-02-22 13:28 Questions张 阅读(517) 评论(0) 推荐(0) 编辑
摘要: 1 官网内容 上面的配置是r1获取到的内容会同时复制到c1 c2 c3 三个channel里面 2 详细配置信息 3 查看消费情况 4 查看tail的文件内容 4 总结 应该是启动了两次的原因,实际上是把文件重复两次的发送到了每个sink里面,实现了实验要求 阅读全文
posted @ 2019-02-22 13:17 Questions张 阅读(522) 评论(0) 推荐(0) 编辑
摘要: 1 官网内容 上面配置的是根据不同的heder当中state值走不同的channels,如果是CZ就走c1 如果是US就走c2 c3 其他默认走c4 2 我的详细配置信息 一个监听http端口 然后 配置两个channel,根据不同的Header中的state值走不同的channel 监听sourc 阅读全文
posted @ 2019-02-22 13:13 Questions张 阅读(577) 评论(0) 推荐(0) 编辑
上一页 1 ··· 28 29 30 31 32 33 34 35 36 ··· 42 下一页