flink - 随笔分类 - 我是属车的

flink on yarn模式下两种提交job方式

摘要：yarn集群搭建，参见hadoop 完全分布式集群搭建通过yarn进行资源管理，flink的任务直接提交到hadoop集群 1、hadoop集群启动，yarn需要运行起来。确保配置HADOOP_HOME环境变量。 2、flink on yarn的交互图解 3、flink运行在yarn模式下，有两种阅读全文

posted @ 2019-08-09 15:33 我是属车的阅读(33560) 评论(0) 推荐(0)

flink Periodic Watermarks 自定义周期性水印

摘要：1、BoundedOutOfOrdernessGenerator 效果解析： 2、TimeLagWatermarkGenerator 效果解析：阅读全文

posted @ 2019-08-07 22:29 我是属车的阅读(3335) 评论(0) 推荐(0)

flink WaterMark之TumblingEventWindow

摘要：1、WaterMark，翻译成水印或水位线，水印翻译更抽象，水位线翻译接地气。正常有序流：watermark实际上与event的时间戳重合乱序流：watermark用于触发窗口计算，也就是水印不到，即使流数据已经落入多个窗口也不会触发，如果水印到了，该窗口的数据即使没到也会触发计算，迟到的数据缺阅读全文

posted @ 2019-08-04 21:27 我是属车的阅读(2349) 评论(0) 推荐(0)

flink 并行计数器实现

摘要：1、flink实现计数器的灵感来源于Hadoop的MapReduce计算框架里的理念。 flink通过实现Accumulator接口实现并行计数。并行管理是由flink实现的。计数的结果通过JobExecutionResul的getAccumulatorResult方法t获取。 2、示例，在正常业阅读全文

posted @ 2019-07-21 13:00 我是属车的阅读(1579) 评论(0) 推荐(0)

flink 批量梯度下降算法线性回归参数求解（Linear Regression with BGD(batch gradient descent) ）

摘要：1、线性回归假设线性函数如下：假设我们有10个样本x1,y1）,(x2,y2).....(x10,y10)，求解目标就是根据多个样本求解theta0和theta1的最优值。为了解决这个问题，我们需要引入误差分析预测值与真实值之间的误差为最小。 2、梯度下降算法梯度下降的场景：梯度下降法的基阅读全文

posted @ 2019-07-17 17:34 我是属车的阅读(778) 评论(0) 推荐(0)

flink KMeans算法实现

摘要：更正：之前发的有两个错误。 1、K均值聚类算法 2、二维坐标点POJO 二维聚类中心POJO 3、缺省的数据准备 4、KMeans聚类算法实现阅读全文

posted @ 2019-07-09 21:36 我是属车的阅读(1876) 评论(6) 推荐(0)

flink 实现三角枚举EnumTriangles算法详解

摘要：1、三角枚举，从所有无向边对中找到相互连接的三角形 2、三角枚举所需要数据结构等 3、测试数据阅读全文

posted @ 2019-07-06 17:39 我是属车的阅读(532) 评论(0) 推荐(0)

flink Transitive Closure算法，实现寻找新的可达路径

摘要：flink 使用Transitive Closure算法实现可达路径查找。 1、Transitive Closure是翻译闭包传递？我觉得直译不准确，意译应该是传递特性直至特性关闭，也符合本例中传递路径，寻找路径可达，直到可达路径不存在（即关闭）。 2、代码很简单，里面有些概念直指核心原理，详细看注阅读全文

posted @ 2019-07-04 10:52 我是属车的阅读(652) 评论(0) 推荐(0)

flink Iterate迭代基本概念

摘要：基本概念：在流中创建“反馈（feedback）”循环，通过将一个算子的输出重定向到某个先前的算子。这对于定义不断更新模型的算法特别有用。迭代的数据流向：DataStream → IterativeStream → DataStream 以下代码以流开始并连续应用迭代体。大于0的元素将被发送回反馈（阅读全文

posted @ 2019-07-02 19:25 我是属车的阅读(2893) 评论(1) 推荐(1)

flink Reduce、GroupReduce、GroupCombine笔记

摘要：1、reduce操作，在分组的dataset上使用，也可以在不分组的dataset上使用 1.1 使用key表达式的dataset进行reduce 1.2 使用KeySelector函数的dataset上进行reduce 1.3 在Tuple元组上应用的reduce，可以使用数字来指明字段位置，类似阅读全文

posted @ 2019-06-30 22:29 我是属车的阅读(5634) 评论(0) 推荐(0)

flink 实现ConnectedComponents 连通分量，增量迭代算法（Delta Iteration）实现详解

摘要：1、连通分量是什么？首先需要了解什么是连通图、无向连通图、极大连通子图等概念，这些概念都来自数据结构-图，这里简单介绍一下。下图是连通图和非连通图，都是无向的，这里不扩展有向图：如果需要继续了解连通图相关的内容可以自行百度。 2、flink 实现连通分量算法，本例中将分量值小的数据传递到其他连阅读全文

posted @ 2019-06-28 17:29 我是属车的阅读(1764) 评论(1) 推荐(0)

flink dataset join笔记

摘要：1、dataset的join连接，通过key进行关联，一般情况下的join都是inner join，类似sql里的inner join key包括以下几种情况： a key expression a key-selector function one or more field position k 阅读全文

posted @ 2019-06-23 21:17 我是属车的阅读(2805) 评论(0) 推荐(1)

flink SourceFunction SinkFunction timeWindowAll reduce

摘要：1、实现SourceFunction接口生成数据源 2、实现SinkFunction接口，实现数据下沉存储及使用阅读全文

posted @ 2019-06-20 22:07 我是属车的阅读(1958) 评论(0) 推荐(0)

flink PageRank详解（批量迭代的页面排名算法的基本实现）

摘要：1、PageRank算法原理 2、基本数据准备 /** * numPages缺省15个测试页面 * * EDGES表示从一个pageId指向相连的另外一个pageId */ public class PageRankData { public static final Object[][] EDGE 阅读全文

posted @ 2019-06-10 20:30 我是属车的阅读(926) 评论(0) 推荐(0)

flink batch wordcount

摘要：1、POJO方式 2、元组方式阅读全文

posted @ 2019-05-30 22:57 我是属车的阅读(538) 评论(0) 推荐(0)

flink 安装及wordcount

摘要：1、下载 2、安装 3、访问flink 4、第一个程序wordcount，从一个socket流中读出字符串，计算10秒内的词频 4.1 引入依赖 4.2 代码 4.4 编译成jar包上传阅读全文

posted @ 2019-05-26 17:02 我是属车的阅读(722) 评论(0) 推荐(0)

我是属车的

随笔分类 - flink

公告