jiFeng丶 - 博客园

2020年3月2日

摘要： Flink简介 Apache Flink是一个开源的分布式、高性能、高可用的流处理框架。主要有Java代码实现，支持scala和java API。支持实时流（stream）处理和批（batch）处理，批数据只是流数据的一个极限特例。 Flink原生支持了迭代计算、内存管理和程序优化。 Flink 阅读全文

posted @ 2020-03-02 16:26 jiFeng丶阅读(6038) 评论(0) 推荐(0) 编辑

2020年3月1日

IDEA Maven Dependencies标红报错

摘要： idea中maven项目出现依赖报红的情况时，如下图：第一步：展开到最底层目录，如下：第二步：在maven本地仓库中找到该文件夹并删除（下图二），maven本地仓库（下图一）打开本地仓库找到报红文件夹（此处只列举一个，实际找到所有并删除）第三步：打开pom.xml文件，将依赖剪切走，如下：阅读全文

posted @ 2020-03-01 01:22 jiFeng丶阅读(29029) 评论(1) 推荐(2) 编辑

2018年7月26日

Spark Streaming流式处理

摘要： Spark Streaming介绍 Spark Streaming概述 Spark Streaming makes it easy to build scalable fault-tolerant streaming applications. 它可以非常容易的构建一个可扩展、具有容错机制的流式应用阅读全文

posted @ 2018-07-26 15:55 jiFeng丶阅读(7474) 评论(0) 推荐(2) 编辑

Kafka

摘要： Kafka介绍 Kafka最初是由LinkedIn开发，并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高吞吐量、低延迟的平台。 Kafka是一个分布式消息队列：生产者、消费者的功能。它提供了类似于JMS的特性，但是在设计实现上阅读全文

posted @ 2018-07-26 14:39 jiFeng丶阅读(647) 评论(0) 推荐(0) 编辑

Spark-on-YARN

摘要： 1.官方文档 http://spark.apache.org/docs/latest/running-on-yarn.html 2.配置安装 1.安装hadoop：需要安装HDFS模块和YARN模块，HDFS必须安装，spark运行时要把jar包存放到HDFS上。 2.安装Spark：解压Spark 阅读全文

posted @ 2018-07-26 12:43 jiFeng丶阅读(199) 评论(0) 推荐(0) 编辑

Spark SQL

摘要： sparksql概述 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。相比于Spark RDD API，Spark SQL包含了对结构化数据和在其上运算的更多信息，Spark SQL使用这些信息进行了额外的优阅读全文

posted @ 2018-07-26 12:35 jiFeng丶阅读(952) 评论(0) 推荐(0) 编辑

SparkRDD编程实战

摘要：通过spark实现点击流日志分析案例 1．访问的pv 2．访问的uv 3．访问的topN 通过Spark实现ip地址查询 1．需求分析在互联网中，我们经常会见到城市热点图这样的报表数据，例如在百度统计中，会统计今年的热门旅游城市、热门报考学校等，会将这样的信息显示在热点图中。因此，我们需阅读全文

posted @ 2018-07-26 01:12 jiFeng丶阅读(1286) 评论(0) 推荐(0) 编辑

SparkRDD函数详解

摘要： 1、RDD操作详解启动spark-shell spark-shell --master spark://hdp-node-01:7077 1.1 基本转换 1) map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对阅读全文

posted @ 2018-07-26 00:59 jiFeng丶阅读(2678) 评论(0) 推荐(0) 编辑

Spark计算模型RDD

摘要： RDD弹性分布式数据集 RDD概述 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个阅读全文

posted @ 2018-07-26 00:49 jiFeng丶阅读(2313) 评论(0) 推荐(0) 编辑

2018年7月19日

初识Spark程序

摘要：执行第一个spark程序普通模式提交任务：该算法是利用蒙特·卡罗算法求圆周率PI，通过计算机模拟大量的随机数，最终会计算出比较精确的π。高可用模式提交任务：在高可用模式下，因为涉及到多个Master，所以对于应用程序的提交就有了一点变化，因为应用程序需要知道当前的Master的IP地址和端口阅读全文

posted @ 2018-07-19 15:00 jiFeng丶阅读(503) 评论(0) 推荐(0) 编辑

jiFeng

该博客仅作为记录学习使用！博客内容选自各渠道资料，如有侵权，请留言，谢谢！

公告

jiFeng

该博客仅作为记录学习使用！ 博客内容选自各渠道资料，如有侵权，请留言，谢谢！

公告

该博客仅作为记录学习使用！博客内容选自各渠道资料，如有侵权，请留言，谢谢！