02 2024 档案
摘要:什么是 Flume 本次我们来聊一聊 Flume,它是 Cloudera 提供的一个高可用、高可靠、分布式的日志收集框架,用于海量日志的采集、聚合以及传输。 Flume 在生产上使用最多的场景就是,实时读取服务器本地磁盘的数据,然后将数据写入到 HDFS。 Flume 基础架构 再来看看 Flume
阅读全文
摘要:楔子 本次来聊一聊 Kafka,相信大家都知道它是一个应用于大数据实时领域、基于发布 / 订阅模式的分布式消息中间件(或者说消息队列),能够和不同的进程进行通信,从而实现上下游之间的消息传递。有了消息队列之后,上游服务和下游服务就无需直接通信了,上游服务将消息发送到队列中,下游从队列中去取即可,从而
阅读全文
摘要:楔子 在之前的文章中我们详细介绍了 Hadoop,那么本次来聊一聊 Spark。相信 Spark 大家都知道,它是一款基于内存的并行计算框架,在业界占有举足轻重的地位,是很多大数据公司的首选。之前介绍 Hadoop 的时候说过,相比 Spark,MapReduce 是非常鸡肋的,无论是简洁度还是性能
阅读全文
摘要:Hive 介绍 本次我们来聊一聊 Hive,它是由 Facebook 开源的一款基于 Hadoop 的数据仓库工具,用于解决海量结构化日志的数据统计与分析。Hive 通过将结构化的数据映射为一张表,并提供类 SQL 查询功能,让开发人员能够编写 SQL 进行数据分析。 在介绍 Hadoop 的时候我
阅读全文
摘要:什么是 zookeeper zookeeper 是 Apache 开源的一个顶级项目,目的是为分布式应用提供协调服务,当然 zookeeper 本身也是分布式的。 而从设计模式的角度来理解:zookeeper 是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接收观
阅读全文