摘要:
1. Kafka 概述 1.1什么是 Kafka Apache Kafka 是分布式发布-订阅消息系统(消息中间件)。它最初由 LinkedIn 公司开发,之后成为 Apache 项目的一部分。Kafka 是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。 简单说明什么是Ka 阅读全文
摘要:
Spark Streaming实时数据流处理 一、Spark Streaming基础 1、Spark Streaming简介http://spark.apache.org/docs/latest/streaming-programming-guide.html Spark Streaming是核心S 阅读全文
摘要:
Spark SQL 一、Spark SQL基础 1、Spark SQL简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。http://spark.apache.org/sql/ 为什么要学习Spark SQ 阅读全文