随笔分类 - 大数据
摘要:HBase 学习笔记 HBase 介绍 HBase 是一款分布式的、基于列族存储的 NoSQL 数据库,它是基于 Apache Hadoop 项目构建的,使用 HDFS 作为其底层文件存储系统。HBase 能够处理海量数据,支持随机读写,并且能够水平扩展,提供高可靠性和高可用性。 HBase 的数据
阅读全文
摘要:Hive学习笔记 本文介绍了Hive的基本概念、使用方法以及和其他大数据产品的整合。 1. Hive简介 Hive是一个建立在Hadoop上的数据仓库工具,它可以将结构化数据映射为一张数据库表,并提供了类似SQL的查询语言HQL(Hive Query Language)。Hive通过将HQL转换为M
阅读全文
摘要:Kafka笔记 简介 Kafka是一个分布式流处理平台,最初由LinkedIn公司开发,现已成为Apache软件基金会的顶级项目。它具有高吞吐量、低延迟和可靠性等特点,适合用于处理大量数据的场景。Kafka主要由三个组件构成:Producer、Broker和Consumer。 依赖Zookeeper
阅读全文
摘要:核心组成部分 HBase由以下几个核心组成部分组成: HMaster:管理RegionServer的分配、负载均衡、恢复和调度等任务。 RegionServer:维护若干个HRegion,处理客户端的读写请求。 HRegion:存储HBase表中的一部分数据,包括一个或多个HFile和MemStor
阅读全文
摘要:ClickHouse笔记 介绍 ClickHouse是一个快速、可扩展、分布式的列式数据库管理系统,旨在处理大规模数据集。它具有快速的数据插入、高性能的查询和支持实时数据更新等特点,非常适用于OLAP场景。ClickHouse已经被广泛应用于各种数据分析场景,如日志分析、BI分析、时序数据分析等。
阅读全文