06 2019 档案
摘要:1、reduce操作,在分组的dataset上使用,也可以在不分组的dataset上使用 1.1 使用key表达式的dataset进行reduce 1.2 使用KeySelector函数的dataset上进行reduce 1.3 在Tuple元组上应用的reduce,可以使用数字来指明字段位置,类似
阅读全文
摘要:1、连通分量是什么? 首先需要了解什么是连通图、无向连通图、极大连通子图等概念,这些概念都来自数据结构-图,这里简单介绍一下。 下图是连通图和非连通图,都是无向的,这里不扩展有向图: 如果需要继续了解连通图相关的内容可以自行百度。 2、flink 实现连通分量算法,本例中将分量值小的数据传递到其他连
阅读全文
摘要:网上很多教程没有介绍清楚tessdata的位置,以及怎么配置,并且对中文库的描述也存在问题,这里介绍一个最简单的样例。 1、使用maven,直接引入依赖,确保你的工程JDK是1.8以上 2、实现代码 3、这里一定要注意tessdata的目录位置 4、还需注意就是你选的语言库是不是真的库,网上给的地址
阅读全文
摘要:1、dataset的join连接,通过key进行关联,一般情况下的join都是inner join,类似sql里的inner join key包括以下几种情况: a key expression a key-selector function one or more field position k
阅读全文
摘要:1、实现SourceFunction接口生成数据源 2、实现SinkFunction接口,实现数据下沉存储及使用
阅读全文
摘要:1、PageRank算法原理 2、基本数据准备 /** * numPages缺省15个测试页面 * * EDGES表示从一个pageId指向相连的另外一个pageId */ public class PageRankData { public static final Object[][] EDGE
阅读全文
摘要:https://blog.csdn.net/wangjun5159/article/details/74932433 https://blog.csdn.net/m0_38001814/article/details/87354584
阅读全文