摘要:
更正:之前发的有两个错误。 1、K均值聚类算法 2、二维坐标点POJO 二维聚类中心POJO 3、缺省的数据准备 4、KMeans聚类算法实现 阅读全文
摘要:
1、三角枚举,从所有无向边对中找到相互连接的三角形 2、三角枚举所需要数据结构等 3、测试数据 阅读全文
摘要:
flink 使用Transitive Closure算法实现可达路径查找。 1、Transitive Closure是翻译闭包传递?我觉得直译不准确,意译应该是传递特性直至特性关闭,也符合本例中传递路径,寻找路径可达,直到可达路径不存在(即关闭)。 2、代码很简单,里面有些概念直指核心原理,详细看注 阅读全文
摘要:
基本概念:在流中创建“反馈(feedback)”循环,通过将一个算子的输出重定向到某个先前的算子。这对于定义不断更新模型的算法特别有用。 迭代的数据流向:DataStream → IterativeStream → DataStream 以下代码以流开始并连续应用迭代体。大于0的元素将被发送回反馈( 阅读全文
摘要:
软件下载:https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/ 官方字库下载:https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#format-of-traine 阅读全文
摘要:
1、reduce操作,在分组的dataset上使用,也可以在不分组的dataset上使用 1.1 使用key表达式的dataset进行reduce 1.2 使用KeySelector函数的dataset上进行reduce 1.3 在Tuple元组上应用的reduce,可以使用数字来指明字段位置,类似 阅读全文
摘要:
1、连通分量是什么? 首先需要了解什么是连通图、无向连通图、极大连通子图等概念,这些概念都来自数据结构-图,这里简单介绍一下。 下图是连通图和非连通图,都是无向的,这里不扩展有向图: 如果需要继续了解连通图相关的内容可以自行百度。 2、flink 实现连通分量算法,本例中将分量值小的数据传递到其他连 阅读全文
摘要:
网上很多教程没有介绍清楚tessdata的位置,以及怎么配置,并且对中文库的描述也存在问题,这里介绍一个最简单的样例。 1、使用maven,直接引入依赖,确保你的工程JDK是1.8以上 2、实现代码 3、这里一定要注意tessdata的目录位置 4、还需注意就是你选的语言库是不是真的库,网上给的地址 阅读全文
摘要:
1、dataset的join连接,通过key进行关联,一般情况下的join都是inner join,类似sql里的inner join key包括以下几种情况: a key expression a key-selector function one or more field position k 阅读全文
摘要:
1、实现SourceFunction接口生成数据源 2、实现SinkFunction接口,实现数据下沉存储及使用 阅读全文