2020 年 6月 24 日随笔档案 - 数据驱动

2020年6月24日

摘要：一、Kafka集群 Kafka 使用 Zookeeper 来维护集群成员 (brokers) 的信息。每个 broker 都有一个唯一标识 broker.id，用于标识自己在集群中的身份，可以在配置文件 server.properties 中进行配置，或者由程序自动生成。下面是 Kafka brok 阅读全文

posted @ 2020-06-24 19:17 数据驱动阅读(1017) 评论(0) 推荐(0) 编辑

大数据基础---Kafka消费者详解

摘要：一、消费者和消费者群组在 Kafka 中，消费者通常是消费者群组的一部分，多个消费者群组共同读取同一个主题时，彼此之间互不影响。Kafka 之所以要引入消费者群组这个概念是因为 Kafka 消费者经常会做一些高延迟的操作，比如把数据写到数据库或 HDFS ，或者进行耗时的计算，在这些情况下，单个消阅读全文

posted @ 2020-06-24 18:04 数据驱动阅读(777) 评论(0) 推荐(0) 编辑

大数据基础---Kafka生产者详解

摘要：一、生产者发送消息的过程首先介绍一下 Kafka 生产者发送消息的过程： Kafka 会将发送消息包装为 ProducerRecord 对象， ProducerRecord 对象包含了目标主题和要发送的内容，同时还可以指定键和分区。在发送 ProducerRecord 对象前，生产者会先把键和值对阅读全文

posted @ 2020-06-24 17:00 数据驱动阅读(363) 评论(0) 推荐(0) 编辑

大数据基础---基于Zookeeper搭建Kafka高可用集群

摘要：一、Zookeeper集群搭建为保证集群高可用，Zookeeper 集群的节点数最好是奇数，最少有三个节点，所以这里搭建一个三个节点的集群。 1.1 下载 & 解压下载对应版本 Zookeeper，这里我下载的版本 3.4.14。官方下载地址：https://archive.apache.org 阅读全文

posted @ 2020-06-24 16:58 数据驱动阅读(301) 评论(0) 推荐(0) 编辑

大数据基础---Sqoop基本使用

摘要：一、Sqoop 基本命令 1. 查看所有命令 # sqoop help 2. 查看某条命令的具体使用方法 # sqoop help 命令名二、Sqoop 与 MySQL 1. 查询MySQL所有数据库通常用于 Sqoop 与 MySQL 连通测试： sqoop list-databases \ 阅读全文

posted @ 2020-06-24 12:19 数据驱动阅读(1199) 评论(0) 推荐(0) 编辑

大数据基础---Sqoop简介与安装

摘要：一、Sqoop 简介 Sqoop 是一个常用的数据迁移工具，主要用于在不同存储系统之间实现数据的导入与导出：导入数据：从 MySQL，Oracle 等关系型数据库中导入数据到 HDFS、Hive、HBase 等分布式文件存储系统中；导出数据：从分布式文件系统中导出数据到关系数据库中。其原理是阅读全文

posted @ 2020-06-24 11:22 数据驱动阅读(326) 评论(0) 推荐(0) 编辑

大数据基础---Flume整合Kafka

摘要：一、背景先说一下，为什么要使用 Flume + Kafka？以实时流处理项目为例，由于采集的数据量可能存在峰值和峰谷，假设是一个电商项目，那么峰值通常出现在秒杀时，这时如果直接将 Flume 聚合后的数据输入到 Storm 等分布式计算框架中，可能就会超过集群的处理能力，这时采用 Kafka 就阅读全文

posted @ 2020-06-24 10:54 数据驱动阅读(745) 评论(0) 推荐(0) 编辑

大数据基础---Flume的搭建

摘要：一、下载并解压到指定目录崇尚授人以渔的思想，我说给大家怎么下载就行了，就不直接放连接了，大家可以直接输入官网地址 http://flume.apache.org ，一般在官网的上方或者左边都会有Download按钮，这个在左侧，然后点进去下载想要的版本即可。这个会有点慢，如果嫌弃的化，可以通过相阅读全文

posted @ 2020-06-24 10:38 数据驱动阅读(472) 评论(0) 推荐(0) 编辑

大数据基础---Flume 简介及基本使用

摘要：一、Flume简介中文版参考文档 Apache Flume 是一个分布式，高可用的数据收集系统。它可以从不同的数据源收集数据，经过聚合后发送到存储系统中，通常用于日志数据的收集。Flume 分为 NG 和 OG (1.0 之前) 两个版本，NG 在 OG 的基础上进行了完全的重构，是目前使用最为广阅读全文

posted @ 2020-06-24 10:33 数据驱动阅读(3302) 评论(0) 推荐(0) 编辑

数据驱动

公告