随笔分类 - flink
摘要:yarn集群搭建,参见hadoop 完全分布式集群搭建 通过yarn进行资源管理,flink的任务直接提交到hadoop集群 1、hadoop集群启动,yarn需要运行起来。确保配置HADOOP_HOME环境变量。 2、flink on yarn的交互图解 3、flink运行在yarn模式下,有两种
阅读全文
摘要:1、BoundedOutOfOrdernessGenerator 效果解析: 2、TimeLagWatermarkGenerator 效果解析:
阅读全文
摘要:1、WaterMark,翻译成水印或水位线,水印翻译更抽象,水位线翻译接地气。 正常有序流:watermark实际上与event的时间戳重合 乱序流:watermark用于触发窗口计算,也就是水印不到,即使流数据已经落入多个窗口也不会触发,如果水印到了,该窗口的数据即使没到也会触发计算,迟到的数据缺
阅读全文
摘要:1、flink实现计数器的灵感来源于Hadoop的MapReduce计算框架里的理念。 flink通过实现Accumulator接口实现并行计数。并行管理是由flink实现的。 计数的结果通过JobExecutionResul的getAccumulatorResult方法t获取。 2、示例,在正常业
阅读全文
摘要:1、线性回归 假设线性函数如下: 假设我们有10个样本x1,y1),(x2,y2).....(x10,y10),求解目标就是根据多个样本求解theta0和theta1的最优值。 为了解决这个问题,我们需要引入误差分析预测值与真实值之间的误差为最小。 2、梯度下降算法 梯度下降的场景: 梯度下降法的基
阅读全文
摘要:更正:之前发的有两个错误。 1、K均值聚类算法 2、二维坐标点POJO 二维聚类中心POJO 3、缺省的数据准备 4、KMeans聚类算法实现
阅读全文
摘要:1、三角枚举,从所有无向边对中找到相互连接的三角形 2、三角枚举所需要数据结构等 3、测试数据
阅读全文
摘要:flink 使用Transitive Closure算法实现可达路径查找。 1、Transitive Closure是翻译闭包传递?我觉得直译不准确,意译应该是传递特性直至特性关闭,也符合本例中传递路径,寻找路径可达,直到可达路径不存在(即关闭)。 2、代码很简单,里面有些概念直指核心原理,详细看注
阅读全文
摘要:基本概念:在流中创建“反馈(feedback)”循环,通过将一个算子的输出重定向到某个先前的算子。这对于定义不断更新模型的算法特别有用。 迭代的数据流向:DataStream → IterativeStream → DataStream 以下代码以流开始并连续应用迭代体。大于0的元素将被发送回反馈(
阅读全文
摘要:1、reduce操作,在分组的dataset上使用,也可以在不分组的dataset上使用 1.1 使用key表达式的dataset进行reduce 1.2 使用KeySelector函数的dataset上进行reduce 1.3 在Tuple元组上应用的reduce,可以使用数字来指明字段位置,类似
阅读全文
摘要:1、连通分量是什么? 首先需要了解什么是连通图、无向连通图、极大连通子图等概念,这些概念都来自数据结构-图,这里简单介绍一下。 下图是连通图和非连通图,都是无向的,这里不扩展有向图: 如果需要继续了解连通图相关的内容可以自行百度。 2、flink 实现连通分量算法,本例中将分量值小的数据传递到其他连
阅读全文
摘要:1、dataset的join连接,通过key进行关联,一般情况下的join都是inner join,类似sql里的inner join key包括以下几种情况: a key expression a key-selector function one or more field position k
阅读全文
摘要:1、实现SourceFunction接口生成数据源 2、实现SinkFunction接口,实现数据下沉存储及使用
阅读全文
摘要:1、PageRank算法原理 2、基本数据准备 /** * numPages缺省15个测试页面 * * EDGES表示从一个pageId指向相连的另外一个pageId */ public class PageRankData { public static final Object[][] EDGE
阅读全文
摘要:1、POJO方式 2、元组方式
阅读全文
摘要:1、下载 2、安装 3、访问flink 4、第一个程序wordcount,从一个socket流中读出字符串,计算10秒内的词频 4.1 引入依赖 4.2 代码 4.4 编译成jar包上传
阅读全文