sw_kong

2020年5月26日

摘要：官网：https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/stream/operators/#operators Map DataStream → DataStream 在原来的数据源上对每个元素做一定的映射操作，比如将每阅读全文

posted @ 2020-05-26 16:55 sw_kong 阅读(411) 评论(0) 推荐(0) 编辑

Apache Flink Watermark

摘要：本文作者为阿里巴巴高级技术专家:金竹，原文发表在云栖社区。地址为:https://yq.aliyun.com/articles/666056?spm=a2c4e.11155435.0.0.106e1b10snGqMd 实际问题（乱序）在介绍Watermark相关内容之前我们先抛出一个具体的问题，阅读全文

posted @ 2020-05-26 13:08 sw_kong 阅读(241) 评论(0) 推荐(0) 编辑

2020年5月25日

Flink核心概念

摘要：分布式缓存分布式缓存的思想在hadoop和spark中都有体现，Flink 提供的分布式缓存类似 Hadoop，目的是为了在分布式环境中让每一个 TaskManager 节点保存一份相同的数据或者文件，当前计算节点的 task 就像读取本地文件一样拉取这些配置。比如在进行表与表 Join 操作时阅读全文

posted @ 2020-05-25 18:10 sw_kong 阅读(543) 评论(0) 推荐(0) 编辑

2020年5月22日

Flink SQL and Table

摘要： Flink 自身提供了不同级别的抽象来支持我们开发流式或者批量处理程序，下图描述了 Flink 支持的 4 种不同级别的抽象。 Please note that the Table API and SQL are not yet feature complete and are being acti 阅读全文

posted @ 2020-05-22 17:44 sw_kong 阅读(1601) 评论(0) 推荐(0) 编辑

利用Flink提供的接口产生实时数据源

摘要：实现SourceFunction接口 package com.kong.flink; import org.apache.flink.streaming.api.functions.source.SourceFunction; import java.util.Arrays; import 阅读全文

posted @ 2020-05-22 14:19 sw_kong 阅读(1221) 评论(0) 推荐(0) 编辑

2020年5月21日

Hive ORC File Format

摘要：背景早在2013年1月，ORC(Optimized Row Columnar)出现，作为大规模加速Apache Hive和提高存储在Apache Hadoop中的数据的存储效率的计划的一部分。重点是为了提升处理速度和减小文件占用磁盘大小。目前有很多公司已经大规模使用ORC了，比如Facebook 阅读全文

posted @ 2020-05-21 15:33 sw_kong 阅读(595) 评论(0) 推荐(0) 编辑

控制hive任务中的map数和reduce数

摘要：控制hive任务中的map数通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；举阅读全文

posted @ 2020-05-21 09:13 sw_kong 阅读(535) 评论(0) 推荐(0) 编辑

2020年5月20日

MySQL索引那些要知道的事

摘要：假如我们没有添加索引，那么在查询时就会触发全表扫描，效率就会比较低。但是即便建立了索引，使用不当也可能导致索引失效。 1.避免使用 or 查询，可以使用 union 或者子查询来替代早期的 MySQL 版本使用 or 查询可能会导致索引失效，在 MySQL 5.0 之后的版本中引入了索引合并，简单阅读全文

posted @ 2020-05-20 17:29 sw_kong 阅读(256) 评论(0) 推荐(0) 编辑

2020年5月19日

Hive开窗函数整理

摘要：分析函数用于计算基于组的某种聚合值，它和聚合函数的不同之处是：对于每个组返回多行，而聚合函数对于每个组只返回一行。开窗函数指定了分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变化而变化！到底什么是数据窗口？后面举例会详细讲到！基础结构：分析函数（如:sum(),max(),row_ 阅读全文

posted @ 2020-05-19 16:21 sw_kong 阅读(6324) 评论(0) 推荐(0) 编辑

2020年5月15日

Yarn 的三种资源调度器详解

摘要：理想情况下，我们应用对Yarn资源的请求应该立刻得到满足，但现实情况资源往往是有限的，特别是在一个很繁忙的集群，一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中，负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题，很难找到一个完美的策略可以解决所有的应用场景。阅读全文

posted @ 2020-05-15 16:55 sw_kong 阅读(4518) 评论(0) 推荐(2) 编辑

公告