摘要:
1、通过xshell连接到服务器编译hadoop源码得时候遇到问题, 2、使用Xshell的时候登陆后的环境变量中会比SecureCRT登陆后的环境变量多出一条 DISPLAY=localhost:10.0,根源就是这里,原因是Xshell支持SSH协议下的X11界面。把Xshell属性中的此设置去 阅读全文
摘要:
1、安装 2、语法,参数 3、示例 4、同步分发脚本xsync 阅读全文
摘要:
yarn集群搭建,参见hadoop 完全分布式集群搭建 通过yarn进行资源管理,flink的任务直接提交到hadoop集群 1、hadoop集群启动,yarn需要运行起来。确保配置HADOOP_HOME环境变量。 2、flink on yarn的交互图解 3、flink运行在yarn模式下,有两种 阅读全文
摘要:
1、在伪分布式基础上搭建,伪分布式搭建参见VM上Hadoop3.1伪分布式模式搭建 2、虚拟机准备,本次集群采用2.8.3版本与3.X版本差别不大,端口号所有差别 3、关闭防火墙,因为需要打开的端口太多,测试的环境,为了避免干扰先关闭防火墙 4、三台虚机之间打开ssh免密登录,账户hadoop 5、 阅读全文
摘要:
1、查看打开文件数量限制 2、临时修改 3、永久修改 阅读全文
摘要:
1、BoundedOutOfOrdernessGenerator 效果解析: 2、TimeLagWatermarkGenerator 效果解析: 阅读全文
摘要:
1、ssh-keygen -t rsa 生产密钥 2、ssh-copy-id 192.168.44.10 发布密钥 阅读全文
摘要:
1、WaterMark,翻译成水印或水位线,水印翻译更抽象,水位线翻译接地气。 正常有序流:watermark实际上与event的时间戳重合 乱序流:watermark用于触发窗口计算,也就是水印不到,即使流数据已经落入多个窗口也不会触发,如果水印到了,该窗口的数据即使没到也会触发计算,迟到的数据缺 阅读全文
摘要:
1、flink实现计数器的灵感来源于Hadoop的MapReduce计算框架里的理念。 flink通过实现Accumulator接口实现并行计数。并行管理是由flink实现的。 计数的结果通过JobExecutionResul的getAccumulatorResult方法t获取。 2、示例,在正常业 阅读全文
摘要:
1、线性回归 假设线性函数如下: 假设我们有10个样本x1,y1),(x2,y2).....(x10,y10),求解目标就是根据多个样本求解theta0和theta1的最优值。 为了解决这个问题,我们需要引入误差分析预测值与真实值之间的误差为最小。 2、梯度下降算法 梯度下降的场景: 梯度下降法的基 阅读全文