关注我,每天一篇大数据开发面试文章,挺进大厂!2021年全套大数据面试题开始更新!
摘要: 文章目录 一、概述 二、Window分类 1、TimeWindow与CountWindow 2、TimeWindow子类型 Tumble Window(翻转窗口) Hop Window(滑动窗口) Session Window(会话窗口) 三、Window分类及整体流程 四、创建WindowOper 阅读全文
posted @ 2019-11-26 21:32 王知无 阅读(3570) 评论(2) 推荐(0) 编辑
摘要: 在编写基于Flink的ETL程序时,我们经常需要用维度数据丰富我们接入的流式数据,如通过商品ID获得商品名称、通过商品分类ID获得分类名称等等。而维度表基本都位于外部存储,换句话说,就是要解决一个无界的流式表与一个有界的码表或半静态表做join操作的问题。 一般情况下的首选方案是Flink内置的异步 阅读全文
posted @ 2019-11-26 19:22 王知无 阅读(807) 评论(0) 推荐(0) 编辑
摘要: 一、什么是布隆过滤器? 布隆过滤器可以用来判断一个元素是否在一个集合中。它的优势是只需要占用很小的内存空间以及有着高效的查询效率。 对于布隆过滤器而言,它的本质是一个位数组:位数组就是数组的每个元素都只占用1bit ,并且每个元素只能是0或者1 布隆过滤器除了一个位数组,还有 K 个哈希函数。当一个 阅读全文
posted @ 2019-11-25 20:25 王知无 阅读(1048) 评论(0) 推荐(0) 编辑
摘要: 数据倾斜 数据倾斜是我们在处理大数据量问题时绕不过去的问题,也是在面试中几乎必问的考点。 正常的数据分布理论上都是倾斜的,就是我们所说的'二八原理':80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。 简单来说数据倾斜就是数据的key 的分化严 阅读全文
posted @ 2019-11-18 21:41 王知无 阅读(554) 评论(0) 推荐(0) 编辑
摘要: 阿里巴巴服务化架构演进 单一应用架构 All In One 整个网站几个应用 前台 web + 后台 ops + tasks 业务 web + service/dao 各自开发 一起集成发布 技术战:Webx、Spring Ibatis、Jboss、Oracle 存在的问题:合并时经常代码冲突、发布 阅读全文
posted @ 2019-11-13 19:31 王知无 阅读(2601) 评论(0) 推荐(0) 编辑
摘要: 声明:本文的原文是来自Hbase技术社区的一个PPT分享,个人做了整理和提炼。 大家注意哈,这种会议PPT类的东西能学习到的更多的是技术方案和他人在实践过程中的经验。希望对大家有帮助。 背景 快手每天产生数百亿用户特征数据,分析师需要在跨30 90天的数千亿特征数据中,任意选择多维度组合(如:城市= 阅读全文
posted @ 2019-11-12 21:58 王知无 阅读(994) 评论(0) 推荐(0) 编辑
摘要: 前言 一年一度的双11又要到了,阿里的双11销量大屏可以说是一道特殊的风景线。实时大屏(real time dashboard)正在被越来越多的企业采用,用来及时呈现关键的数据指标。并且在实际操作中,肯定也不会仅仅计算一两个维度。由于Flink的“真·流式计算”这一特点,它比Spark Stream 阅读全文
posted @ 2019-11-12 21:55 王知无 阅读(2334) 评论(0) 推荐(1) 编辑
摘要: 本文来自夏立的分享,花名雷飙,阿里巴巴计算平台EMR高级产品专家。 2014年开始接触大数据,历经阿里内部的大数据发展,目前在阿里云上负责开源的大数据平台EMR产品,构建云上的开源生态。 产品介绍 阿里云EMR的整体架构如下: 管理运维能力 集群管理,作业管理和调度 操作Web化、SDK&API 完 阅读全文
posted @ 2019-11-07 22:59 王知无 阅读(568) 评论(0) 推荐(0) 编辑
摘要: 本次分享者:辰石,来自阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。 Spark Shuffle介绍 Smart Shuffle设计 性能分析 Spark Shuffle流程 Spark 0.8及以前 Hash Based Shuffle Spark 0. 阅读全文
posted @ 2019-11-03 14:24 王知无 阅读(499) 评论(0) 推荐(0) 编辑
摘要: 简介 Flink本身为了保证其高可用的特性,以及保证作用的Exactly Once的快速恢复,进而提供了一套强大的Checkpoint机制。 Checkpoint机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前 阅读全文
posted @ 2019-09-19 00:16 王知无 阅读(6257) 评论(0) 推荐(0) 编辑