大数据 - 随笔分类(第7页) - 独孤风

Hbase入门(三)——数据模型

摘要：Hbase最核心但也是最难理解的就是数据模型，由于与传统的关系型数据库不同，虽然Hbase也有表（Table），也有行（Row）和列（Column），但是与关系型数据库不同的是Hbase有一个列族（Column Family）的概念，它将一列或者多列组织在一起，HBase必须属于某一个列族。行和列阅读全文

posted @ 2019-09-30 09:39 独孤风阅读(1486) 评论(0) 推荐(1) 编辑

Hbase入门(二)——安装与配置

摘要：本文讲述如何安装，部署，启停HBase集群，如何通过命令行对Hbase进行基本操作。并介绍Hbase的配置文件。在安装前需要将所有先决条件安装完成。一、先决条件 1、JDK 和Hadoop一样，Hbase需要JDK1.6或者更高的版本，所以请安装好JDK并配置环境变量。 Hbase版本与JDK 阅读全文

posted @ 2019-09-29 11:00 独孤风阅读(1166) 评论(0) 推荐(1) 编辑

Hbase入门(一)——初识Hbase

摘要：本文将介绍大数据的知识和Hbase的基本概念，作为大数据体系中重要的一员，Hbase弥补了Hadoop只能离线批处理的不足，支持存储小文件，随机检索。而这种特性使得Hbase对于实时计算体系的事件存储有天然的较好的支持。这使得Hbase在实时流式计算中也扮演者重要的角色。 1、大数据与Hbase 大阅读全文

posted @ 2019-09-24 09:06 独孤风阅读(859) 评论(0) 推荐(1) 编辑

Flink1.9整合Kafka

摘要：本文基于Flink1.9版本简述如何连接Kafka。流式连接器我们知道可以自己来开发Source 和 Sink ，但是一些比较基本的 Source 和 Sink 已经内置在 Flink 里。预定义的source支持从文件、目录、socket，以及 collections 和 iterators 阅读全文

posted @ 2019-09-20 11:53 独孤风阅读(4145) 评论(0) 推荐(0) 编辑

Flink入门宝典（详细截图版）

摘要：本文基于java构建Flink1.9版本入门程序，需要Maven 3.0.4 和 Java 8 以上版本。需要安装Netcat进行简单调试。这里简述安装过程，并使用IDEA进行开发一个简单流处理程序，本地调试或者提交到Flink上运行，Maven与JDK安装这里不做说明。一、Flink简介 Fl 阅读全文

posted @ 2019-09-18 10:10 独孤风阅读(4337) 评论(0) 推荐(1) 编辑

Kafka常见错误整理（不断更新中）

摘要：1、UnknownTopicOrPartitionException org.apache.kafka.common.errors.UnknownTopicOrPartitionException: This server does not host this topic-partition 报错内阅读全文

posted @ 2019-09-17 09:07 独孤风阅读(19567) 评论(0) 推荐(0) 编辑

Kafka运维命令大全

摘要：1、集群管理前台启动broker bin/kafka-server-start.sh <path>/server.properties Ctrl + C 关闭后台启动broker bin/kafka-server-start.sh -daemon <path>/server.properties 阅读全文

posted @ 2019-09-16 09:27 独孤风阅读(2214) 评论(0) 推荐(2) 编辑

Storm VS Flink ——性能对比

摘要：1.背景 Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm（以下简称“Storm”）在美团点评实时计算业务中已有较为成熟的运用（可参考 Storm 的可靠性保证测试），有管理平台、常用 API 和相应的文档，大量实时阅读全文

posted @ 2019-09-12 09:47 独孤风阅读(13138) 评论(0) 推荐(2) 编辑

快速构建第一个Flink工程

摘要：本文简述通过maven和gradle快速构建的Flink工程。建议安装好Flink以后构建自己的Flink项目，安装与示例运行请查看：Flink快速入门--安装与示例运行. 在安装好Flink以后，只要快速构建Flink工程，并完成相关代码开发，就可以轻松入手Flink。构建工具 Flink项目可阅读全文

posted @ 2019-09-10 10:24 独孤风阅读(2634) 评论(0) 推荐(2) 编辑

Kafka入门宝典（详细截图版）

摘要：1、了解 Apache Kafka 1.1、简介官网：http://kafka.apache.org/ Apache Kafka 是一个开源消息系统，由Scala 写成。是由Apache 软件基金会开发的一个开源消息系统项目。 Kafka 最初是由LinkedIn 开发，并于2011 年初开源。2 阅读全文

posted @ 2019-09-09 10:11 独孤风阅读(2142) 评论(0) 推荐(8) 编辑

统一批处理流处理——Flink批流一体实现原理

摘要：实现批处理的技术许许多多，从各种关系型数据库的sql处理，到大数据领域的MapReduce，Hive，Spark等等。这些都是处理有限数据流的经典方式。而Flink专注的是无限流处理，那么他是怎么做到批处理的呢？无限流处理：输入数据没有尽头；数据处理从当前或者过去的某一个时间点开始，持续不停地进阅读全文

posted @ 2019-09-06 10:34 独孤风阅读(13493) 评论(0) 推荐(1) 编辑

Flink,Storm,SparkStreaming性能对比

摘要：Yahoo 的 Storm 团队曾发表了一篇博客文章，并在其中展示了 Storm、Flink 和 Spark Streaming 的性能测试结果。该测试对于业界而言极具价值，因为它是流处理领域的第一个基于真实应用程序的基准测试。该应用程序从 Kafka 消费广告曝光消息，从 Redis 查找每阅读全文

posted @ 2019-09-05 10:28 独孤风阅读(8224) 评论(0) 推荐(1) 编辑

最简单流处理引擎——Kafka Streams简介

摘要：Kafka在0.10.0.0版本以前的定位是分布式，分区化的，带备份机制的日志提交服务。而kafka在这之前也没有提供数据处理的顾服务。大家的流处理计算主要是还是依赖于Storm，Spark Streaming，Flink等流式处理框架。 Storm，Spark Streaming，Flink流处理阅读全文

posted @ 2019-09-04 11:14 独孤风阅读(13251) 评论(0) 推荐(2) 编辑

超越Storm，SparkStreaming——Flink如何实现有状态的计算

摘要：流式计算分为无状态和有状态两种情况。无状态计算观察每个独立的事件，Storm就是无状态的计算框架，每一条消息来了以后和前后都没有关系，一条是一条。比如我们接收电力系统传感器的数据，当电压超过240v就报警，这就是无状态的数据。但是如果我们需要同时判断多个电压，比如三相电路，我们判断三相电都高于某个值阅读全文

posted @ 2019-09-03 17:47 独孤风阅读(2403) 评论(0) 推荐(0) 编辑

可以穿梭时空的实时计算框架——Flink对时间的处理

摘要：Flink对于流处理架构的意义十分重要，Kafka让消息具有了持久化的能力，而处理数据，甚至穿越时间的能力都要靠Flink来完成。在Streaming-大数据的未来一文中我们知道，对于流式处理最重要的两件事，正确性，时间推理工具。而Flink对两者都有非常好的支持。 Flink对于正确性的保证对阅读全文

posted @ 2019-09-02 12:35 独孤风阅读(1380) 评论(1) 推荐(3) 编辑

替代Flume——Kafka Connect简介

摘要：我们知道过去对于Kafka的定义是分布式，分区化的，带备份机制的日志提交服务。也就是一个分布式的消息队列，这也是他最常见的用法。但是Kafka不止于此，打开最新的官网。我们看到Kafka最新的定义是：Apache Kafka® is a distributed streaming platform 阅读全文

posted @ 2019-08-30 11:25 独孤风阅读(4349) 评论(0) 推荐(0) 编辑

数据架构的未来——浅谈流处理架构

摘要：数据架构设计领域正在发生一场变革，其影响的不仅是实时处理业务，这场变革可能将基于流的处理视为整个架构设计的核心，而不是将流处理只是作为某一个实时计算的项目使用。本文将对比传统数据架构与流处理架构的区别，并将介绍如何将流处理架构应用于微服务及整体系统中。传统数据架构传统数据架构是一种中心化阅读全文

posted @ 2019-08-29 10:15 独孤风阅读(2911) 评论(1) 推荐(0) 编辑

Flink快速入门--安装与示例运行

摘要：flink是一款开源的大数据流式处理框架，他可以同时批处理和流处理，具有容错性、高吞吐、低延迟等优势，本文简述flink在windows和linux中安装步骤，和示例程序的运行。首先要想运行Flink，我们需要下载并解压Flink的二进制包，下载地址如下：https://flink.apache. 阅读全文

posted @ 2019-08-28 13:28 独孤风阅读(3014) 评论(0) 推荐(2) 编辑

Kafka到底有几个Offset？——Kafka核心之偏移量机制

摘要： Kafka是由LinkIn开源的实时数据处理框架，目前已经更新到2.3版本。不同于一般的消息中间件，Kafka通过数据持久化和磁盘读写获得了极高的吞吐量，并可以不依赖Storm，SparkStreaming的流处理平台，自己进行实时的流处理。 Kakfa的Offset机制是其最核心机制之一，阅读全文

posted @ 2019-08-27 17:12 独孤风阅读(6971) 评论(0) 推荐(1) 编辑

Kafka的消息会丢失和重复吗？——如何实现Kafka精确传递一次语义

摘要：我们都知道Kafka的吞吐量很大，但是Kafka究竟会不会丢失消息呢？又会不会重复消费消息呢？有很多公司因为业务要求必须保证消息不丢失、不重复的到达，比如无人机实时监控系统，当无人机闯入机场区域，我们必须立刻报警，不允许消息丢失。而无人机离开禁飞区域后我们需要将及时报警解除。如果消息重复了呢，阅读全文

posted @ 2019-08-26 15:49 独孤风阅读(2262) 评论(0) 推荐(0) 编辑

大数据流动

公众号大数据流动。追随大数据的流动，专注于大数据相关技术。相关学习交流群已经成立，欢迎加入~

随笔分类 - 大数据

公告

搜索

常用链接

我的标签

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论