Spark - 随笔分类 - 淼淼之森

Spark框架详解

摘要：一、引言作者：Albert陈凯链接：https://www.jianshu.com/p/f3181afec605來源：简书 Introduction 本文主要讨论 Apache Spark 的设计与实现，重点关注其设计思想、运行原理、实现架构及性能调优，附带讨论与 Hadoop MapReduce 阅读全文

posted @ 2018-08-06 11:51 淼淼之森阅读(7277) 评论(0) 推荐(1) 编辑

spark之JDBC开发（连接数据库测试）

摘要：spark之JDBC开发（连接数据库测试）以下操作属于本地模式操作： 1、在Eclipse4.5中建立工程RDDToJDBC，并创建一个文件夹lib用于放置第三方驱动包 [hadoop@CloudDeskTop software]$ cd /project/RDDToJDBC/[hadoop@Cl 阅读全文

posted @ 2018-02-26 22:06 淼淼之森阅读(1889) 评论(0) 推荐(0) 编辑

spark之JDBC开发（实战）

摘要：一、概述 Spark Core、Spark-SQL与Spark-Streaming都是相同的,编写好之后打成jar包使用spark-submit命令提交到集群运行应用$SPARK_HOME/bin#./spark-submit --master spark://Master01:7077 --cla 阅读全文

posted @ 2018-02-08 20:32 淼淼之森阅读(4687) 评论(0) 推荐(0) 编辑

spark之scala程序开发(集群运行模式)：单词出现次数统计

摘要：准备工作：将运行Scala-Eclipse的机器节点(CloudDeskTop)内存调整至4G，因为需要在该节点上跑本地(local)Spark程序，本地Spark程序会启动Worker进程耗用大量内存资源其余准备工作可参考：scala程序开发之单词出现次数统计(本地运行模式) 1、启动Spar 阅读全文

posted @ 2018-02-07 16:58 淼淼之森阅读(6023) 评论(8) 推荐(1) 编辑

spark之scala程序开发(本地运行模式)：单词出现次数统计

摘要：准备工作：将运行Scala-Eclipse的机器节点(CloudDeskTop)内存调整至4G，因为需要在该节点上跑本地(local)Spark程序，本地Spark程序会启动Worker进程耗用大量内存资源本地运行模式(主要用于调试) 1、首先将Spark的所有jar包拷贝到hadoop用户家目阅读全文

posted @ 2018-02-07 15:58 淼淼之森阅读(5067) 评论(0) 推荐(0) 编辑

spark之java程序开发

摘要：spark之java程序开发 1、Spark中的Java开发的缘由: Spark自身是使用Scala程序开发的，Scala语言是同时具备函数式编程和指令式编程的一种混血语言，而Spark源码是基于Scala函数式编程来给予设计的，Spark官方推荐Spark的开发人员基于Scala的函数式编程来实现阅读全文

posted @ 2018-02-05 10:13 淼淼之森阅读(5940) 评论(0) 推荐(0) 编辑

scala程序开发入门

摘要：scala程序开发入门，快速步入scala的门槛： 1、Scala的特性: A、纯粹面向对象(没有基本类型,只有对象类型)、Scala的安装与JDK相同,只需要解压之后配置环境变量即可；B、Scala在安装之前必须先安装JDK,因为Scala的编译结果是中间字节码文件,它需要在JVM上运行,Scal 阅读全文

posted @ 2018-02-04 20:40 淼淼之森阅读(3733) 评论(0) 推荐(2) 编辑

Shuffle过程

摘要：Shuffle过程在MapReduce框架中，shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现，也实现了shuffle的逻辑。阅读全文

posted @ 2018-02-03 11:54 淼淼之森阅读(347) 评论(0) 推荐(0) 编辑

Spark内存管理机制

摘要：Spark内存管理机制 Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。在执行 Spark 的应用程序时，Spark 集群会启动 Driver 和 Execut 阅读全文

posted @ 2018-02-03 11:54 淼淼之森阅读(1821) 评论(0) 推荐(3) 编辑

Spark的核心RDD（Resilient Distributed Datasets弹性分布式数据集）

摘要：Spark的核心RDD （Resilient Distributed Datasets弹性分布式数据集）原文链接：http://www.cnblogs.com/yjd_hycf_space/p/7681585.html 铺垫主角首先我们来思考一个问题吧：Spark的计算模型是如何做到并行的呢？阅读全文

posted @ 2018-02-02 18:22 淼淼之森阅读(424) 评论(0) 推荐(0) 编辑

RDD内存迭代原理(Resilient Distributed Datasets)---弹性分布式数据集

摘要：Spark的核心RDD Resilient Distributed Datasets(弹性分布式数据集) Spark运行原理与RDD理论 Spark与MapReduce对比,MapReduce的计算和迭代是基于磁盘的,而Spark的迭代和计算是尽量基于内存,只有在内存空间不能容纳计算结果时才将溢出的阅读全文

posted @ 2018-01-11 11:52 淼淼之森阅读(2317) 评论(0) 推荐(3) 编辑

spark高可用集群搭建及运行测试

摘要：文中的所有操作都是在之前的文章spark集群的搭建基础上建立的，重复操作已经简写；之前的配置中使用了master01、slave01、slave02、slave03；本篇文章还要添加master02和CloudDeskTop两个节点，并配置好运行环境；一、流程： 1、在搭建高可用集群之前需要先阅读全文

posted @ 2018-01-10 09:04 淼淼之森阅读(4195) 评论(0) 推荐(1) 编辑

spark集群的简单测试和基础命令的使用

摘要：写此篇文章之前，已经搭建好spark集群并测试成功； spark集群搭建文章链接：http://www.cnblogs.com/mmzs/p/8193707.html 一、启动环境由于每次都要启动，比较麻烦，所以博主写了个简单的启动脚本：第一个在root用户下，第二个在hadoop用户下执行； # 阅读全文

posted @ 2018-01-09 08:36 淼淼之森阅读(13443) 评论(4) 推荐(4) 编辑

spark集群搭建

摘要：文中的所有操作都是在之前的文章scala的安装及使用文章基础上建立的，重复操作已经简写；配置中使用了master01、slave01、slave02、slave03；一、虚拟机中操作(启动网卡)sh /install/initNetwork.shifup eth0 二、基础配置（主机名、IP配置阅读全文

posted @ 2018-01-08 08:30 淼淼之森阅读(3463) 评论(0) 推荐(1) 编辑

scala的安装及使用

摘要：前提你的集群机器已经安装好jdk1.7.0_79、hadoop-2.7.3；配置中使用了master01、slave01、slave02、slave03；文中的所有操作都是在之前的文章http://www.cnblogs.com/mmzs/p/8031129.html基础上建立的，重复操作已经简阅读全文

posted @ 2018-01-07 10:16 淼淼之森阅读(1734) 评论(0) 推荐(0) 编辑

淼淼之森

学习在于积累：滴水可以石穿！学而不思则罔，思而不学则殆！
👉【转载请注明出处和署名！】

随笔分类 - Spark

公告

淼淼之森

学习在于积累：滴水可以石穿！ 学而不思则罔，思而不学则殆！ 👉【转载请注明出处和署名！】

随笔分类 - Spark

公告

学习在于积累：滴水可以石穿！学而不思则罔，思而不学则殆！
👉【转载请注明出处和署名！】