上一页 1 2 3 4 5 6 7 ··· 9 下一页
摘要: Flink简介 Apache Flink是一个开源的分布式、高性能、高可用的流处理框架。 主要有Java代码实现,支持scala和java API。 支持实时流(stream)处理和批(batch)处理,批数据只是流数据的一个极限特例。 Flink原生支持了迭代计算、内存管理和程序优化。 Flink 阅读全文
posted @ 2020-03-02 16:26 jiFeng丶 阅读(6038) 评论(0) 推荐(0) 编辑
摘要: idea中maven项目出现依赖报红的情况时,如下图: 第一步:展开到最底层目录,如下: 第二步:在maven本地仓库中找到该文件夹并删除(下图二),maven本地仓库(下图一) 打开本地仓库找到报红文件夹(此处只列举一个,实际找到所有并删除) 第三步:打开pom.xml文件,将依赖剪切走,如下: 阅读全文
posted @ 2020-03-01 01:22 jiFeng丶 阅读(29029) 评论(1) 推荐(2) 编辑
摘要: Spark Streaming介绍 Spark Streaming概述 Spark Streaming makes it easy to build scalable fault-tolerant streaming applications. 它可以非常容易的构建一个可扩展、具有容错机制的流式应用 阅读全文
posted @ 2018-07-26 15:55 jiFeng丶 阅读(7474) 评论(0) 推荐(2) 编辑
摘要: Kafka介绍 Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高吞吐量、低延迟的平台。 Kafka是一个分布式消息队列:生产者、消费者的功能。它提供了类似于JMS的特性,但是在设计实现上 阅读全文
posted @ 2018-07-26 14:39 jiFeng丶 阅读(647) 评论(0) 推荐(0) 编辑
摘要: 1.官方文档 http://spark.apache.org/docs/latest/running-on-yarn.html 2.配置安装 1.安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。 2.安装Spark:解压Spark 阅读全文
posted @ 2018-07-26 12:43 jiFeng丶 阅读(199) 评论(0) 推荐(0) 编辑
摘要: sparksql概述 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 相比于Spark RDD API,Spark SQL包含了对结构化数据和在其上运算的更多信息,Spark SQL使用这些信息进行了额外的优 阅读全文
posted @ 2018-07-26 12:35 jiFeng丶 阅读(952) 评论(0) 推荐(0) 编辑
摘要: 通过spark实现点击流日志分析案例 1. 访问的pv 2. 访问的uv 3. 访问的topN 通过Spark实现ip地址查询 1. 需求分析 在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中,会统计今年的热门旅游城市、热门报考学校等,会将这样的信息显示在热点图中。 因此,我们需 阅读全文
posted @ 2018-07-26 01:12 jiFeng丶 阅读(1286) 评论(0) 推荐(0) 编辑
摘要: 1、RDD操作详解 启动spark-shell spark-shell --master spark://hdp-node-01:7077 1.1 基本转换 1) map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。 任何原RDD中的元素在新RDD中都有且只有一个元素与之对 阅读全文
posted @ 2018-07-26 00:59 jiFeng丶 阅读(2678) 评论(0) 推荐(0) 编辑
摘要: RDD弹性分布式数据集 RDD概述 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个 阅读全文
posted @ 2018-07-26 00:49 jiFeng丶 阅读(2313) 评论(0) 推荐(0) 编辑
摘要: 执行第一个spark程序 普通模式提交任务: 该算法是利用蒙特·卡罗算法求圆周率PI,通过计算机模拟大量的随机数,最终会计算出比较精确的π。 高可用模式提交任务: 在高可用模式下,因为涉及到多个Master,所以对于应用程序的提交就有了一点变化,因为应用程序需要知道当前的Master的IP地址和端口 阅读全文
posted @ 2018-07-19 15:00 jiFeng丶 阅读(503) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 9 下一页