02 2024 档案

详解海量日志传输框架 Flume

摘要：什么是 Flume 本次我们来聊一聊 Flume，它是 Cloudera 提供的一个高可用、高可靠、分布式的日志收集框架，用于海量日志的采集、聚合以及传输。 Flume 在生产上使用最多的场景就是，实时读取服务器本地磁盘的数据，然后将数据写入到 HDFS。 Flume 基础架构再来看看 Flume 阅读全文

posted @ 2024-02-29 22:07 万明珠阅读(1262) 评论(0) 推荐(0) 编辑

详解大数据领域中必不可少的消息中间件 Kafka

摘要：楔子本次来聊一聊 Kafka，相信大家都知道它是一个应用于大数据实时领域、基于发布 / 订阅模式的分布式消息中间件（或者说消息队列），能够和不同的进程进行通信，从而实现上下游之间的消息传递。有了消息队列之后，上游服务和下游服务就无需直接通信了，上游服务将消息发送到队列中，下游从队列中去取即可，从而阅读全文

posted @ 2024-02-24 01:20 万明珠阅读(1007) 评论(0) 推荐(0) 编辑

全面解析并行计算框架 Spark，以及和 Python 的对接

摘要：楔子在之前的文章中我们详细介绍了 Hadoop，那么本次来聊一聊 Spark。相信 Spark 大家都知道，它是一款基于内存的并行计算框架，在业界占有举足轻重的地位，是很多大数据公司的首选。之前介绍 Hadoop 的时候说过，相比 Spark，MapReduce 是非常鸡肋的，无论是简洁度还是性能阅读全文

posted @ 2024-02-18 00:54 万明珠阅读(2046) 评论(2) 推荐(0) 编辑

Hive：构建于 Hadoop 之上、让你像写 SQL 一样编写 MapReduce 程序

摘要：Hive 介绍本次我们来聊一聊 Hive，它是由 Facebook 开源的一款基于 Hadoop 的数据仓库工具，用于解决海量结构化日志的数据统计与分析。Hive 通过将结构化的数据映射为一张表，并提供类 SQL 查询功能，让开发人员能够编写 SQL 进行数据分析。在介绍 Hadoop 的时候我阅读全文

posted @ 2024-02-06 15:03 万明珠阅读(434) 评论(0) 推荐(0) 编辑

为分布式应用提供协调服务的 ZooKeeper

摘要：什么是 zookeeper zookeeper 是 Apache 开源的一个顶级项目，目的是为分布式应用提供协调服务，当然 zookeeper 本身也是分布式的。而从设计模式的角度来理解：zookeeper 是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接收观阅读全文

posted @ 2024-02-01 21:11 万明珠阅读(211) 评论(0) 推荐(0) 编辑

公告

创建了一个新账号，老账号的内容写的太多太杂了。

后续会把老账号的一些比较不错的文章搬运过来并做一些补充，点个关注吧。

昵称：万明珠
园龄： 1年
粉丝： 34
关注： 0

+加关注

2025年2月

日

一

二

三

四

五

六

我叫万明珠呀

愿时间能带走痛苦

02 2024 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论