万明珠 - 博客园

2024年3月3日

摘要：初识 Flink 与流计算 Flink 在大数据领域已经应用的越来越广泛，很多大公司内部都有它的身影，那么问题来了，Flink 到底是用来做什么的呢？首先提到 Flink 必然绕不开流计算（或者说流式计算、流处理等等），因为 Flink 是一个分布式、高性能的流计算引擎。比如天猫的成交额一分钟能破阅读全文

posted @ 2024-03-03 14:46 万明珠阅读(9194) 评论(3) 推荐(4)

2024年2月29日

详解海量日志传输框架 Flume

摘要：什么是 Flume 本次我们来聊一聊 Flume，它是 Cloudera 提供的一个高可用、高可靠、分布式的日志收集框架，用于海量日志的采集、聚合以及传输。 Flume 在生产上使用最多的场景就是，实时读取服务器本地磁盘的数据，然后将数据写入到 HDFS。 Flume 基础架构再来看看 Flume 阅读全文

posted @ 2024-02-29 22:07 万明珠阅读(1957) 评论(0) 推荐(0)

2024年2月24日

详解大数据领域中必不可少的消息中间件 Kafka

摘要：楔子本次来聊一聊 Kafka，相信大家都知道它是一个应用于大数据实时领域、基于发布 / 订阅模式的分布式消息中间件（或者说消息队列），能够和不同的进程进行通信，从而实现上下游之间的消息传递。有了消息队列之后，上游服务和下游服务就无需直接通信了，上游服务将消息发送到队列中，下游从队列中去取即可，从而阅读全文

posted @ 2024-02-24 01:20 万明珠阅读(1757) 评论(0) 推荐(0)

2024年2月18日

全面解析并行计算框架 Spark，以及和 Python 的对接

摘要：楔子在之前的文章中我们详细介绍了 Hadoop，那么本次来聊一聊 Spark。相信 Spark 大家都知道，它是一款基于内存的并行计算框架，在业界占有举足轻重的地位，是很多大数据公司的首选。之前介绍 Hadoop 的时候说过，相比 Spark，MapReduce 是非常鸡肋的，无论是简洁度还是性能阅读全文

posted @ 2024-02-18 00:54 万明珠阅读(2968) 评论(2) 推荐(1)

2024年2月6日

Hive：构建于 Hadoop 之上、让你像写 SQL 一样编写 MapReduce 程序

摘要： Hive 介绍本次我们来聊一聊 Hive，它是由 Facebook 开源的一款基于 Hadoop 的数据仓库工具，用于解决海量结构化日志的数据统计与分析。Hive 通过将结构化的数据映射为一张表，并提供类 SQL 查询功能，让开发人员能够编写 SQL 进行数据分析。在介绍 Hadoop 的时候我阅读全文

posted @ 2024-02-06 15:03 万明珠阅读(1869) 评论(0) 推荐(0)

2024年2月1日

为分布式应用提供协调服务的 ZooKeeper

摘要：什么是 zookeeper zookeeper 是 Apache 开源的一个顶级项目，目的是为分布式应用提供协调服务，当然 zookeeper 本身也是分布式的。而从设计模式的角度来理解：zookeeper 是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接收观阅读全文

posted @ 2024-02-01 21:11 万明珠阅读(322) 评论(0) 推荐(0)

2024年1月31日

全方位解析大数据生态圈中最基础、最重要的组件 Hadoop

摘要：大数据概述大数据这个概念近年来算是如火如荼，那什么是大数据呢？首先从名字来看，我们可以简单地认为数据量大，而数据量大也就意味着计算量大。这样理解本身是没有任何问题的，只不过这并不能很好的定义大数据。而业界的一家权威的机构，针对大数据做了描述，认为大数据应该具备如下特征： 1）数据量（Volume 阅读全文

posted @ 2024-01-31 22:32 万明珠阅读(1916) 评论(0) 推荐(0)

我叫万明珠呀

愿时间能带走痛苦

公告