王知无

2019年4月24日

摘要：摘要：实际问题在流计算场景中，数据会源源不断的流入Apache Flink系统，每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算，那么每次触发计算是将历史上所有流入的数据重新新计算一次，还是每次计算都是在上一次计算结果之上进行增量计算呢？答案是肯定的，A 阅读全文

posted @ 2019-04-24 23:08 王知无阅读(1990) 评论(0) 推荐(1)

Apache-Flink深度解析-概述

摘要：摘要： Apache Flink 的命脉 "命脉" 即生命与血脉，常喻极为重要的事物。系列的首篇，首篇的首段不聊Apache Flink的历史，不聊Apache Flink的架构，不聊Apache Flink的功能特性，我们用一句话聊聊什么是 Apache Flink 的命脉？我的答案是：Apach 阅读全文

posted @ 2019-04-24 23:08 王知无阅读(1290) 评论(0) 推荐(0)

Apache-Flink深度解析-SQL概览

摘要：你可能感兴趣的文章： Flink入门 Flink DataSet&DataSteam API Flink集群部署 Flink重启策略 Flink分布式缓存 Flink重启策略 Flink中的Time Flink中的窗口 Flink的时间戳和水印 Flink广播变量 Flink-Kafka-conne 阅读全文

posted @ 2019-04-24 23:04 王知无阅读(437) 评论(0) 推荐(0)

Apache-Flink深度解析-DataStream-Connectors之Kafka

摘要： Kafka 简介 Apache Kafka是一个分布式发布-订阅消息传递系统。它最初由LinkedIn公司开发，LinkedIn于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka用于构建实时数据管道和流式应用程序。它具有水平扩展性、容错性、极快的速度，目前也得到了广泛的应用。 K 阅读全文

posted @ 2019-04-24 23:04 王知无阅读(447) 评论(0) 推荐(0)

Apache-Flink深度解析-JOIN 算子

摘要：什么是JOIN 在《Apache Flink 漫谈系列 - SQL概览》中我对JOIN算子有过简单的介绍，这里我们以具体实例的方式让大家对JOIN算子加深印象。JOIN的本质是分别从N(N>=1)张表中获取不同的字段，进而得到最完整的记录行。比如我们有一个查询需求：在学生表(学号，姓名，性别)，课程阅读全文

posted @ 2019-04-24 23:03 王知无阅读(1949) 评论(0) 推荐(0)

Apache-Flink深度解析-TableAPI

摘要：您可能感兴趣的文章合集： Flink入门 Flink DataSet&DataSteam API Flink集群部署 Flink重启策略 Flink分布式缓存 Flink重启策略 Flink中的Time Flink中的窗口 Flink的时间戳和水印 Flink广播变量 Flink-Kafka-con 阅读全文

posted @ 2019-04-24 22:55 王知无阅读(689) 评论(0) 推荐(0)

Spark streaming消费Kafka的正确姿势

摘要：前言在游戏项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结，之阅读全文

posted @ 2019-04-24 22:54 王知无阅读(25946) 评论(1) 推荐(1)

Hive使用必知必会系列

摘要：一、Hive的几种数据模型内部表 (Table 将数据保存到Hive 自己的数据仓库目录中：/usr/hive/warehouse) 外部表 (External Table 相对于内部表，数据不在自己的数据仓库中，只保存数据的元信息) 分区表 (Partition Table将数据按照设定的条件分阅读全文

posted @ 2019-04-24 22:51 王知无阅读(2006) 评论(0) 推荐(1)

2019年4月21日

Flink集群部署

摘要：部署方式一般来讲有三种方式： Local Standalone Flink On Yarn/Mesos/K8s… 单机模式参考上一篇Flink从入门到放弃(入门篇2)-本地环境搭建&构建第一个Flink应用 Standalone模式部署我们基于CentOS7虚拟机搭建一个3个节点的集群：角色阅读全文

posted @ 2019-04-21 21:27 王知无阅读(13571) 评论(0) 推荐(0)

7-Flink的分布式缓存

摘要：分布式缓存 Flink提供了一个分布式缓存，类似于hadoop，可以使用户在并行函数中很方便的读取本地文件，并把它放在taskmanager节点中，防止task重复拉取。此缓存的工作机制如下：程序注册一个文件或者目录(本地或者远程文件系统，例如hdfs或者s3)，通过ExecutionEnviro 阅读全文

posted @ 2019-04-21 21:27 王知无阅读(218) 评论(0) 推荐(0)

公告