摘要:
(一)创建模板 在VMware中安装centos虚拟机后,将初始系统的环境进行如下配置,使其成为虚拟机可以进行克隆的公用系统. (1) 配置网络 修改网络地址: 1、设置网卡为nat模式 2、确保windows下的服务是否启动(dhcp,net服务) 3、编辑网络的配置文件 vi /etc/sysc 阅读全文
摘要:
ApacheFlink起源于Stratosphere项目,Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会,参加这个孵化项目的初始成员是Stratosphe 阅读全文
摘要:
1. 线性回归 什么是回归? 从大量的函数结果和自变量反推回函数表达式的过程就是回归。线性回归是利用数理统计中回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。 一元线性回归: 只包括一个自变量()和一个因变量(),且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归 阅读全文
摘要:
1. 数据本地化的级别: ① PROCESS_LOCAL task要计算的数据在本进程(Executor)的内存中。 ② NODE_LOCAL a) task所计算的数据在本节点所在的磁盘上。 b) task所计算的数据在本节点其他Executor进程的内存中。 ③ NO_PREF task所计算的 阅读全文
摘要:
① 搭建Spark集群的时候要给Spark集群足够的资源(core,memory) 在spark安装包的conf下spark-env.sh SPARK_WORKER_CORES --worker节点的可用核数 SPARK_WORKER_MEMORY SPARK_WORKER_INSTANCE 在提交 阅读全文
摘要:
SparkShuffle概念 reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value,然后生成一个新的RDD,元素类型是<key,value>对的形式,这样每一个key对应一个聚合起来的value。 问题:聚合之前,每一个key对应的value不一定都是在一个 阅读全文
摘要:
在这三种部署模式中,standalone作为spark自带的分布式部署模式,是最简单也是最基本的spark应用程序部署模式,这里就不再赘述。这里就讲一下yarn和mesos的区别: (1) 就两种框架本身而言,mesos上可部署yarn框架。而yarn是更通用的一种部署框架,而且技术较成熟。 (2) 阅读全文
摘要:
Spark作为分布式计算框架,多个节点的设计与相互通信模式是其重要的组成部分。 Spark一开始使用 Akka 作为内部通信部件。在Spark 1.3年代,为了解决大块数据(如Shuffle)的传输问题,Spark引入了Netty通信框架。到了 Spark 1.6, Spark可以配置使用 Akka 阅读全文
摘要:
参数列表: --master MASTER_URL, 可以是spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local --deploy-mode DEPLOY_MODE, Driver程序运行的地方,cli 阅读全文
摘要:
1. Standalone模式两种提交任务方式 提交命令 ./spark-submit --master spark://node1:7077 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2. 阅读全文
摘要:
1. spark有几种部署方式,各有什么特点? local(本地模式):常用于本地开发测试,本地还分为local单线程和local-cluster多线程; standalone(集群模式):典型的Mater/slave模式,不过也能看出Master是有单点故障的;Spark支持ZooKeeper来实 阅读全文