上一页 1 2 3 4 5 6 7 ··· 14 下一页
摘要: 官网:https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/stream/operators/#operators Map DataStream → DataStream 在原来的数据源上对每个元素做一定的映射操作,比如将每 阅读全文
posted @ 2020-05-26 16:55 sw_kong 阅读(411) 评论(0) 推荐(0) 编辑
摘要: 本文作者为阿里巴巴高级技术专家:金竹,原文发表在云栖社区。 地址为:https://yq.aliyun.com/articles/666056?spm=a2c4e.11155435.0.0.106e1b10snGqMd 实际问题(乱序) 在介绍Watermark相关内容之前我们先抛出一个具体的问题, 阅读全文
posted @ 2020-05-26 13:08 sw_kong 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 分布式缓存 分布式缓存的思想在hadoop和spark中都有体现,Flink 提供的分布式缓存类似 Hadoop,目的是为了在分布式环境中让每一个 TaskManager 节点保存一份相同的数据或者文件,当前计算节点的 task 就像读取本地文件一样拉取这些配置。 比如在进行表与表 Join 操作时 阅读全文
posted @ 2020-05-25 18:10 sw_kong 阅读(543) 评论(0) 推荐(0) 编辑
摘要: Flink 自身提供了不同级别的抽象来支持我们开发流式或者批量处理程序,下图描述了 Flink 支持的 4 种不同级别的抽象。 Please note that the Table API and SQL are not yet feature complete and are being acti 阅读全文
posted @ 2020-05-22 17:44 sw_kong 阅读(1601) 评论(0) 推荐(0) 编辑
摘要: 实现SourceFunction接口 package com.kong.flink; ​ import org.apache.flink.streaming.api.functions.source.SourceFunction; ​ import java.util.Arrays; import 阅读全文
posted @ 2020-05-22 14:19 sw_kong 阅读(1221) 评论(0) 推荐(0) 编辑
摘要: 背景 早在2013年1月,ORC(Optimized Row Columnar)出现,作为大规模加速Apache Hive和提高存储在Apache Hadoop中的数据的存储效率的计划的一部分。重点是为了提升处理速度和减小文件占用磁盘大小。 目前有很多公司已经大规模使用ORC了,比如Facebook 阅读全文
posted @ 2020-05-21 15:33 sw_kong 阅读(595) 评论(0) 推荐(0) 编辑
摘要: 控制hive任务中的map数 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改); 举 阅读全文
posted @ 2020-05-21 09:13 sw_kong 阅读(535) 评论(0) 推荐(0) 编辑
摘要: 假如我们没有添加索引,那么在查询时就会触发全表扫描,效率就会比较低。但是即便建立了索引,使用不当也可能导致索引失效。 1.避免使用 or 查询,可以使用 union 或者子查询来替代 早期的 MySQL 版本使用 or 查询可能会导致索引失效,在 MySQL 5.0 之后的版本中引入了索引合并,简单 阅读全文
posted @ 2020-05-20 17:29 sw_kong 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 分析函数用于计算基于组的某种聚合值,它和聚合函数的不同之处是:对于每个组返回多行,而聚合函数对于每个组只返回一行。 开窗函数指定了分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变化而变化!到底什么是数据窗口?后面举例会详细讲到! 基础结构: 分析函数(如:sum(),max(),row_ 阅读全文
posted @ 2020-05-19 16:21 sw_kong 阅读(6324) 评论(0) 推荐(0) 编辑
摘要: 理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。 阅读全文
posted @ 2020-05-15 16:55 sw_kong 阅读(4518) 评论(0) 推荐(2) 编辑
上一页 1 2 3 4 5 6 7 ··· 14 下一页