摘要: Spark Streaming介绍 Spark Streaming概述 Spark Streaming makes it easy to build scalable fault-tolerant streaming applications. 它可以非常容易的构建一个可扩展、具有容错机制的流式应用 阅读全文
posted @ 2018-07-26 15:55 jiFeng丶 阅读(7474) 评论(0) 推荐(2) 编辑
摘要: Kafka介绍 Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高吞吐量、低延迟的平台。 Kafka是一个分布式消息队列:生产者、消费者的功能。它提供了类似于JMS的特性,但是在设计实现上 阅读全文
posted @ 2018-07-26 14:39 jiFeng丶 阅读(647) 评论(0) 推荐(0) 编辑
摘要: 1.官方文档 http://spark.apache.org/docs/latest/running-on-yarn.html 2.配置安装 1.安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。 2.安装Spark:解压Spark 阅读全文
posted @ 2018-07-26 12:43 jiFeng丶 阅读(199) 评论(0) 推荐(0) 编辑
摘要: sparksql概述 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 相比于Spark RDD API,Spark SQL包含了对结构化数据和在其上运算的更多信息,Spark SQL使用这些信息进行了额外的优 阅读全文
posted @ 2018-07-26 12:35 jiFeng丶 阅读(952) 评论(0) 推荐(0) 编辑
摘要: 通过spark实现点击流日志分析案例 1. 访问的pv 2. 访问的uv 3. 访问的topN 通过Spark实现ip地址查询 1. 需求分析 在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中,会统计今年的热门旅游城市、热门报考学校等,会将这样的信息显示在热点图中。 因此,我们需 阅读全文
posted @ 2018-07-26 01:12 jiFeng丶 阅读(1286) 评论(0) 推荐(0) 编辑
摘要: 1、RDD操作详解 启动spark-shell spark-shell --master spark://hdp-node-01:7077 1.1 基本转换 1) map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。 任何原RDD中的元素在新RDD中都有且只有一个元素与之对 阅读全文
posted @ 2018-07-26 00:59 jiFeng丶 阅读(2678) 评论(0) 推荐(0) 编辑
摘要: RDD弹性分布式数据集 RDD概述 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个 阅读全文
posted @ 2018-07-26 00:49 jiFeng丶 阅读(2313) 评论(0) 推荐(0) 编辑