2018 年 7月 26 日随笔档案 - jiFeng丶

2018年7月26日

摘要： Spark Streaming介绍 Spark Streaming概述 Spark Streaming makes it easy to build scalable fault-tolerant streaming applications. 它可以非常容易的构建一个可扩展、具有容错机制的流式应用阅读全文

posted @ 2018-07-26 15:55 jiFeng丶阅读(7474) 评论(0) 推荐(2) 编辑

Kafka

摘要： Kafka介绍 Kafka最初是由LinkedIn开发，并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高吞吐量、低延迟的平台。 Kafka是一个分布式消息队列：生产者、消费者的功能。它提供了类似于JMS的特性，但是在设计实现上阅读全文

posted @ 2018-07-26 14:39 jiFeng丶阅读(647) 评论(0) 推荐(0) 编辑

Spark-on-YARN

摘要： 1.官方文档 http://spark.apache.org/docs/latest/running-on-yarn.html 2.配置安装 1.安装hadoop：需要安装HDFS模块和YARN模块，HDFS必须安装，spark运行时要把jar包存放到HDFS上。 2.安装Spark：解压Spark 阅读全文

posted @ 2018-07-26 12:43 jiFeng丶阅读(199) 评论(0) 推荐(0) 编辑

Spark SQL

摘要： sparksql概述 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。相比于Spark RDD API，Spark SQL包含了对结构化数据和在其上运算的更多信息，Spark SQL使用这些信息进行了额外的优阅读全文

posted @ 2018-07-26 12:35 jiFeng丶阅读(952) 评论(0) 推荐(0) 编辑

SparkRDD编程实战

摘要：通过spark实现点击流日志分析案例 1．访问的pv 2．访问的uv 3．访问的topN 通过Spark实现ip地址查询 1．需求分析在互联网中，我们经常会见到城市热点图这样的报表数据，例如在百度统计中，会统计今年的热门旅游城市、热门报考学校等，会将这样的信息显示在热点图中。因此，我们需阅读全文

posted @ 2018-07-26 01:12 jiFeng丶阅读(1286) 评论(0) 推荐(0) 编辑

SparkRDD函数详解

摘要： 1、RDD操作详解启动spark-shell spark-shell --master spark://hdp-node-01:7077 1.1 基本转换 1) map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对阅读全文

posted @ 2018-07-26 00:59 jiFeng丶阅读(2678) 评论(0) 推荐(0) 编辑

Spark计算模型RDD

摘要： RDD弹性分布式数据集 RDD概述 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个阅读全文

posted @ 2018-07-26 00:49 jiFeng丶阅读(2313) 评论(0) 推荐(0) 编辑

jiFeng

该博客仅作为记录学习使用！博客内容选自各渠道资料，如有侵权，请留言，谢谢！

公告

jiFeng

该博客仅作为记录学习使用！ 博客内容选自各渠道资料，如有侵权，请留言，谢谢！

公告

该博客仅作为记录学习使用！博客内容选自各渠道资料，如有侵权，请留言，谢谢！