摘要:
初识 Flink 与流计算 Flink 在大数据领域已经应用的越来越广泛,很多大公司内部都有它的身影,那么问题来了,Flink 到底是用来做什么的呢? 首先提到 Flink 必然绕不开流计算(或者说流式计算、流处理等等),因为 Flink 是一个分布式、高性能的流计算引擎。比如天猫的成交额一分钟能破 阅读全文
摘要:
什么是 Flume 本次我们来聊一聊 Flume,它是 Cloudera 提供的一个高可用、高可靠、分布式的日志收集框架,用于海量日志的采集、聚合以及传输。 Flume 在生产上使用最多的场景就是,实时读取服务器本地磁盘的数据,然后将数据写入到 HDFS。 Flume 基础架构 再来看看 Flume 阅读全文
摘要:
楔子 本次来聊一聊 Kafka,相信大家都知道它是一个应用于大数据实时领域、基于发布 / 订阅模式的分布式消息中间件(或者说消息队列),能够和不同的进程进行通信,从而实现上下游之间的消息传递。有了消息队列之后,上游服务和下游服务就无需直接通信了,上游服务将消息发送到队列中,下游从队列中去取即可,从而 阅读全文
摘要:
楔子 在之前的文章中我们详细介绍了 Hadoop,那么本次来聊一聊 Spark。相信 Spark 大家都知道,它是一款基于内存的并行计算框架,在业界占有举足轻重的地位,是很多大数据公司的首选。之前介绍 Hadoop 的时候说过,相比 Spark,MapReduce 是非常鸡肋的,无论是简洁度还是性能 阅读全文
摘要:
Hive 介绍 本次我们来聊一聊 Hive,它是由 Facebook 开源的一款基于 Hadoop 的数据仓库工具,用于解决海量结构化日志的数据统计与分析。Hive 通过将结构化的数据映射为一张表,并提供类 SQL 查询功能,让开发人员能够编写 SQL 进行数据分析。 在介绍 Hadoop 的时候我 阅读全文
摘要:
什么是 zookeeper zookeeper 是 Apache 开源的一个顶级项目,目的是为分布式应用提供协调服务,当然 zookeeper 本身也是分布式的。 而从设计模式的角度来理解:zookeeper 是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接收观 阅读全文
摘要:
大数据概述 大数据这个概念近年来算是如火如荼,那什么是大数据呢?首先从名字来看,我们可以简单地认为数据量大,而数据量大也就意味着计算量大。这样理解本身是没有任何问题的,只不过这并不能很好的定义大数据。 而业界的一家权威的机构,针对大数据做了描述,认为大数据应该具备如下特征: 1)数据量(Volume 阅读全文