关注我,每天一篇大数据开发面试文章,挺进大厂!2021年全套大数据面试题开始更新!
摘要: 戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Flink中的窗口 9-Flink中的Time Flink时间戳和水印 Broadcast广播变量 FlinkTa 阅读全文
posted @ 2019-04-24 23:09 王知无 阅读(1412) 评论(0) 推荐(0) 编辑
摘要: 摘要: 实际问题 在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重新新计算一次,还是每次计算都是在上一次计算结果之上进行增量计算呢?答案是肯定的,A 阅读全文
posted @ 2019-04-24 23:08 王知无 阅读(1958) 评论(0) 推荐(1) 编辑
摘要: 摘要: Apache Flink 的命脉 "命脉" 即生命与血脉,常喻极为重要的事物。系列的首篇,首篇的首段不聊Apache Flink的历史,不聊Apache Flink的架构,不聊Apache Flink的功能特性,我们用一句话聊聊什么是 Apache Flink 的命脉?我的答案是:Apach 阅读全文
posted @ 2019-04-24 23:08 王知无 阅读(1207) 评论(0) 推荐(0) 编辑
摘要: 你可能感兴趣的文章: Flink入门 Flink DataSet&DataSteam API Flink集群部署 Flink重启策略 Flink分布式缓存 Flink重启策略 Flink中的Time Flink中的窗口 Flink的时间戳和水印 Flink广播变量 Flink-Kafka-conne 阅读全文
posted @ 2019-04-24 23:04 王知无 阅读(396) 评论(0) 推荐(0) 编辑
摘要: Kafka 简介 Apache Kafka是一个分布式发布-订阅消息传递系统。 它最初由LinkedIn公司开发,LinkedIn于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka用于构建实时数据管道和流式应用程序。它具有水平扩展性、容错性、极快的速度,目前也得到了广泛的应用。 K 阅读全文
posted @ 2019-04-24 23:04 王知无 阅读(401) 评论(0) 推荐(0) 编辑
摘要: 什么是JOIN 在《Apache Flink 漫谈系列 - SQL概览》中我对JOIN算子有过简单的介绍,这里我们以具体实例的方式让大家对JOIN算子加深印象。JOIN的本质是分别从N(N>=1)张表中获取不同的字段,进而得到最完整的记录行。比如我们有一个查询需求:在学生表(学号,姓名,性别),课程 阅读全文
posted @ 2019-04-24 23:03 王知无 阅读(1853) 评论(0) 推荐(0) 编辑
摘要: 您可能感兴趣的文章合集: Flink入门 Flink DataSet&DataSteam API Flink集群部署 Flink重启策略 Flink分布式缓存 Flink重启策略 Flink中的Time Flink中的窗口 Flink的时间戳和水印 Flink广播变量 Flink-Kafka-con 阅读全文
posted @ 2019-04-24 22:55 王知无 阅读(628) 评论(0) 推荐(0) 编辑
摘要: 前言 在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结,之 阅读全文
posted @ 2019-04-24 22:54 王知无 阅读(25681) 评论(1) 推荐(1) 编辑
摘要: 一、Hive的几种数据模型 内部表 (Table 将数据保存到Hive 自己的数据仓库目录中:/usr/hive/warehouse) 外部表 (External Table 相对于内部表,数据不在自己的数据仓库中,只保存数据的元信息) 分区表 (Partition Table将数据按照设定的条件分 阅读全文
posted @ 2019-04-24 22:51 王知无 阅读(1930) 评论(0) 推荐(1) 编辑