08 2019 档案

摘要:1、继承FileOutputFormat,复写getRecordWriter方法 2、实现RecordWriter 3、map 4、reducer 5、driver 阅读全文
posted @ 2019-08-31 22:50 我是属车的 阅读(939) 评论(0) 推荐(0) 编辑
摘要:利用hadoop的map和reduce排序特性实现对数据排序取TopN条数据。 代码参考:https://github.com/asker124143222/wordcount 1、样本数据,假设是订单数据,求解按订单id排序且每个订单里价格最高前三,从高到低排序。 2、求解思路 3、code 3. 阅读全文
posted @ 2019-08-31 15:08 我是属车的 阅读(505) 评论(0) 推荐(0) 编辑
摘要:1、通过xshell连接到服务器编译hadoop源码得时候遇到问题, 2、使用Xshell的时候登陆后的环境变量中会比SecureCRT登陆后的环境变量多出一条 DISPLAY=localhost:10.0,根源就是这里,原因是Xshell支持SSH协议下的X11界面。把Xshell属性中的此设置去 阅读全文
posted @ 2019-08-16 11:27 我是属车的 阅读(1633) 评论(0) 推荐(0) 编辑
摘要:1、安装 2、语法,参数 3、示例 4、同步分发脚本xsync 阅读全文
posted @ 2019-08-14 14:38 我是属车的 阅读(289) 评论(0) 推荐(0) 编辑
摘要:yarn集群搭建,参见hadoop 完全分布式集群搭建 通过yarn进行资源管理,flink的任务直接提交到hadoop集群 1、hadoop集群启动,yarn需要运行起来。确保配置HADOOP_HOME环境变量。 2、flink on yarn的交互图解 3、flink运行在yarn模式下,有两种 阅读全文
posted @ 2019-08-09 15:33 我是属车的 阅读(33300) 评论(0) 推荐(0) 编辑
摘要:1、在伪分布式基础上搭建,伪分布式搭建参见VM上Hadoop3.1伪分布式模式搭建 2、虚拟机准备,本次集群采用2.8.3版本与3.X版本差别不大,端口号所有差别 3、关闭防火墙,因为需要打开的端口太多,测试的环境,为了避免干扰先关闭防火墙 4、三台虚机之间打开ssh免密登录,账户hadoop 5、 阅读全文
posted @ 2019-08-08 16:52 我是属车的 阅读(1674) 评论(0) 推荐(0) 编辑
摘要:1、查看打开文件数量限制 2、临时修改 3、永久修改 阅读全文
posted @ 2019-08-08 12:35 我是属车的 阅读(5110) 评论(0) 推荐(0) 编辑
摘要:1、BoundedOutOfOrdernessGenerator 效果解析: 2、TimeLagWatermarkGenerator 效果解析: 阅读全文
posted @ 2019-08-07 22:29 我是属车的 阅读(3315) 评论(0) 推荐(0) 编辑
摘要:1、ssh-keygen -t rsa 生产密钥 2、ssh-copy-id 192.168.44.10 发布密钥 阅读全文
posted @ 2019-08-06 11:38 我是属车的 阅读(124) 评论(0) 推荐(0) 编辑
摘要:1、WaterMark,翻译成水印或水位线,水印翻译更抽象,水位线翻译接地气。 正常有序流:watermark实际上与event的时间戳重合 乱序流:watermark用于触发窗口计算,也就是水印不到,即使流数据已经落入多个窗口也不会触发,如果水印到了,该窗口的数据即使没到也会触发计算,迟到的数据缺 阅读全文
posted @ 2019-08-04 21:27 我是属车的 阅读(2305) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示