随笔分类 -  flink

摘要:yarn集群搭建,参见hadoop 完全分布式集群搭建 通过yarn进行资源管理,flink的任务直接提交到hadoop集群 1、hadoop集群启动,yarn需要运行起来。确保配置HADOOP_HOME环境变量。 2、flink on yarn的交互图解 3、flink运行在yarn模式下,有两种 阅读全文
posted @ 2019-08-09 15:33 我是属车的 阅读(33300) 评论(0) 推荐(0) 编辑
摘要:1、BoundedOutOfOrdernessGenerator 效果解析: 2、TimeLagWatermarkGenerator 效果解析: 阅读全文
posted @ 2019-08-07 22:29 我是属车的 阅读(3315) 评论(0) 推荐(0) 编辑
摘要:1、WaterMark,翻译成水印或水位线,水印翻译更抽象,水位线翻译接地气。 正常有序流:watermark实际上与event的时间戳重合 乱序流:watermark用于触发窗口计算,也就是水印不到,即使流数据已经落入多个窗口也不会触发,如果水印到了,该窗口的数据即使没到也会触发计算,迟到的数据缺 阅读全文
posted @ 2019-08-04 21:27 我是属车的 阅读(2305) 评论(0) 推荐(0) 编辑
摘要:1、flink实现计数器的灵感来源于Hadoop的MapReduce计算框架里的理念。 flink通过实现Accumulator接口实现并行计数。并行管理是由flink实现的。 计数的结果通过JobExecutionResul的getAccumulatorResult方法t获取。 2、示例,在正常业 阅读全文
posted @ 2019-07-21 13:00 我是属车的 阅读(1560) 评论(0) 推荐(0) 编辑
摘要:1、线性回归 假设线性函数如下: 假设我们有10个样本x1,y1),(x2,y2).....(x10,y10),求解目标就是根据多个样本求解theta0和theta1的最优值。 为了解决这个问题,我们需要引入误差分析预测值与真实值之间的误差为最小。 2、梯度下降算法 梯度下降的场景: 梯度下降法的基 阅读全文
posted @ 2019-07-17 17:34 我是属车的 阅读(751) 评论(0) 推荐(0) 编辑
摘要:更正:之前发的有两个错误。 1、K均值聚类算法 2、二维坐标点POJO 二维聚类中心POJO 3、缺省的数据准备 4、KMeans聚类算法实现 阅读全文
posted @ 2019-07-09 21:36 我是属车的 阅读(1845) 评论(6) 推荐(0) 编辑
摘要:1、三角枚举,从所有无向边对中找到相互连接的三角形 2、三角枚举所需要数据结构等 3、测试数据 阅读全文
posted @ 2019-07-06 17:39 我是属车的 阅读(515) 评论(0) 推荐(0) 编辑
摘要:flink 使用Transitive Closure算法实现可达路径查找。 1、Transitive Closure是翻译闭包传递?我觉得直译不准确,意译应该是传递特性直至特性关闭,也符合本例中传递路径,寻找路径可达,直到可达路径不存在(即关闭)。 2、代码很简单,里面有些概念直指核心原理,详细看注 阅读全文
posted @ 2019-07-04 10:52 我是属车的 阅读(629) 评论(0) 推荐(0) 编辑
摘要:基本概念:在流中创建“反馈(feedback)”循环,通过将一个算子的输出重定向到某个先前的算子。这对于定义不断更新模型的算法特别有用。 迭代的数据流向:DataStream → IterativeStream → DataStream 以下代码以流开始并连续应用迭代体。大于0的元素将被发送回反馈( 阅读全文
posted @ 2019-07-02 19:25 我是属车的 阅读(2846) 评论(1) 推荐(1) 编辑
摘要:1、reduce操作,在分组的dataset上使用,也可以在不分组的dataset上使用 1.1 使用key表达式的dataset进行reduce 1.2 使用KeySelector函数的dataset上进行reduce 1.3 在Tuple元组上应用的reduce,可以使用数字来指明字段位置,类似 阅读全文
posted @ 2019-06-30 22:29 我是属车的 阅读(5557) 评论(0) 推荐(0) 编辑
摘要:1、连通分量是什么? 首先需要了解什么是连通图、无向连通图、极大连通子图等概念,这些概念都来自数据结构-图,这里简单介绍一下。 下图是连通图和非连通图,都是无向的,这里不扩展有向图: 如果需要继续了解连通图相关的内容可以自行百度。 2、flink 实现连通分量算法,本例中将分量值小的数据传递到其他连 阅读全文
posted @ 2019-06-28 17:29 我是属车的 阅读(1700) 评论(1) 推荐(0) 编辑
摘要:1、dataset的join连接,通过key进行关联,一般情况下的join都是inner join,类似sql里的inner join key包括以下几种情况: a key expression a key-selector function one or more field position k 阅读全文
posted @ 2019-06-23 21:17 我是属车的 阅读(2769) 评论(0) 推荐(1) 编辑
摘要:1、实现SourceFunction接口生成数据源 2、实现SinkFunction接口,实现数据下沉存储及使用 阅读全文
posted @ 2019-06-20 22:07 我是属车的 阅读(1949) 评论(0) 推荐(0) 编辑
摘要:1、PageRank算法原理 2、基本数据准备 /** * numPages缺省15个测试页面 * * EDGES表示从一个pageId指向相连的另外一个pageId */ public class PageRankData { public static final Object[][] EDGE 阅读全文
posted @ 2019-06-10 20:30 我是属车的 阅读(912) 评论(0) 推荐(0) 编辑
摘要:1、POJO方式 2、元组方式 阅读全文
posted @ 2019-05-30 22:57 我是属车的 阅读(534) 评论(0) 推荐(0) 编辑
摘要:1、下载 2、安装 3、访问flink 4、第一个程序wordcount,从一个socket流中读出字符串,计算10秒内的词频 4.1 引入依赖 4.2 代码 4.4 编译成jar包上传 阅读全文
posted @ 2019-05-26 17:02 我是属车的 阅读(688) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示