独孤风 - 博客园

2019年9月5日

摘要： Yahoo 的 Storm 团队曾发表了一篇博客文章，并在其中展示了 Storm、Flink 和 Spark Streaming 的性能测试结果。该测试对于业界而言极具价值，因为它是流处理领域的第一个基于真实应用程序的基准测试。该应用程序从 Kafka 消费广告曝光消息，从 Redis 查找每阅读全文

posted @ 2019-09-05 10:28 独孤风阅读(8305) 评论(0) 推荐(1)

2019年9月4日

最简单流处理引擎——Kafka Streams简介

摘要： Kafka在0.10.0.0版本以前的定位是分布式，分区化的，带备份机制的日志提交服务。而kafka在这之前也没有提供数据处理的顾服务。大家的流处理计算主要是还是依赖于Storm，Spark Streaming，Flink等流式处理框架。 Storm，Spark Streaming，Flink流处理阅读全文

posted @ 2019-09-04 11:14 独孤风阅读(14177) 评论(0) 推荐(2)

2019年9月3日

超越Storm，SparkStreaming——Flink如何实现有状态的计算

摘要：流式计算分为无状态和有状态两种情况。无状态计算观察每个独立的事件，Storm就是无状态的计算框架，每一条消息来了以后和前后都没有关系，一条是一条。比如我们接收电力系统传感器的数据，当电压超过240v就报警，这就是无状态的数据。但是如果我们需要同时判断多个电压，比如三相电路，我们判断三相电都高于某个值阅读全文

posted @ 2019-09-03 17:47 独孤风阅读(2445) 评论(0) 推荐(0)

2019年9月2日

可以穿梭时空的实时计算框架——Flink对时间的处理

摘要： Flink对于流处理架构的意义十分重要，Kafka让消息具有了持久化的能力，而处理数据，甚至穿越时间的能力都要靠Flink来完成。在Streaming-大数据的未来一文中我们知道，对于流式处理最重要的两件事，正确性，时间推理工具。而Flink对两者都有非常好的支持。 Flink对于正确性的保证对阅读全文

posted @ 2019-09-02 12:35 独孤风阅读(1454) 评论(1) 推荐(3)

2019年8月30日

替代Flume——Kafka Connect简介

摘要：我们知道过去对于Kafka的定义是分布式，分区化的，带备份机制的日志提交服务。也就是一个分布式的消息队列，这也是他最常见的用法。但是Kafka不止于此，打开最新的官网。我们看到Kafka最新的定义是：Apache Kafka® is a distributed streaming platform 阅读全文

posted @ 2019-08-30 11:25 独孤风阅读(4503) 评论(0) 推荐(0)

2019年8月29日

数据架构的未来——浅谈流处理架构

摘要：数据架构设计领域正在发生一场变革，其影响的不仅是实时处理业务，这场变革可能将基于流的处理视为整个架构设计的核心，而不是将流处理只是作为某一个实时计算的项目使用。本文将对比传统数据架构与流处理架构的区别，并将介绍如何将流处理架构应用于微服务及整体系统中。传统数据架构传统数据架构是一种中心化阅读全文

posted @ 2019-08-29 10:15 独孤风阅读(3038) 评论(1) 推荐(0)

2019年8月28日

Flink快速入门--安装与示例运行

摘要： flink是一款开源的大数据流式处理框架，他可以同时批处理和流处理，具有容错性、高吞吐、低延迟等优势，本文简述flink在windows和linux中安装步骤，和示例程序的运行。首先要想运行Flink，我们需要下载并解压Flink的二进制包，下载地址如下：https://flink.apache. 阅读全文

posted @ 2019-08-28 13:28 独孤风阅读(3100) 评论(0) 推荐(2)

2019年8月27日

Kafka到底有几个Offset？——Kafka核心之偏移量机制

摘要： Kafka是由LinkIn开源的实时数据处理框架，目前已经更新到2.3版本。不同于一般的消息中间件，Kafka通过数据持久化和磁盘读写获得了极高的吞吐量，并可以不依赖Storm，SparkStreaming的流处理平台，自己进行实时的流处理。 Kakfa的Offset机制是其最核心机制之一，阅读全文

posted @ 2019-08-27 17:12 独孤风阅读(7039) 评论(0) 推荐(1)

2019年8月26日

Kafka的消息会丢失和重复吗？——如何实现Kafka精确传递一次语义

摘要：我们都知道Kafka的吞吐量很大，但是Kafka究竟会不会丢失消息呢？又会不会重复消费消息呢？有很多公司因为业务要求必须保证消息不丢失、不重复的到达，比如无人机实时监控系统，当无人机闯入机场区域，我们必须立刻报警，不允许消息丢失。而无人机离开禁飞区域后我们需要将及时报警解除。如果消息重复了呢，阅读全文

posted @ 2019-08-26 15:49 独孤风阅读(2311) 评论(0) 推荐(0)

2019年8月23日

Kafka监控工具汇总

摘要：对于大数据集群来说，监控功能是非常必要的，通过日志判断故障低效，我们需要完整的指标来帮我们管理Kafka集群。本文讨论Kafka的监控以及一些常用的第三方监控工具。一、Kafka Monitoring 首先介绍kafka的监控原理，第三方工具也是通过这些来进行监控的，我们也可以自己去是实现监控，官阅读全文

posted @ 2019-08-23 11:48 独孤风阅读(20824) 评论(3) 推荐(0)

大数据流动

公众号大数据流动。追随大数据的流动，专注于大数据相关技术。相关学习交流群已经成立，欢迎加入~

公告

大数据流动

公众号 大数据流动。 追随大数据的流动，专注于大数据相关技术。 相关学习交流群已经成立，欢迎加入~

公告

公众号大数据流动。追随大数据的流动，专注于大数据相关技术。相关学习交流群已经成立，欢迎加入~