摘要: 阅读全文
posted @ 2019-06-26 07:29 virus丶舒 阅读(104) 评论(0) 推荐(0) 编辑
摘要: 一、测试或实验性质的本地运行模式 (单机) 该模式被称为Local[N]模式,是用单机的多个线程来模拟Spark分布式计算,通常用来验证开发出来的应用程序逻辑上有没有问题。 其中N代表可以使用N个线程,每个线程拥有一个core。如果不指定N,则默认是1个线程(该线程有1个core)。 指令示例: 1 阅读全文
posted @ 2019-06-24 16:02 virus丶舒 阅读(3922) 评论(0) 推荐(0) 编辑
摘要: 概述 Shuffle是Spark Core比较复杂的模块,它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。 1)spark.shuffle.manager Spark 1.2.0官方版本支持两种方式的Shuffle,即Hash Based Shuffle和Sort 阅读全文
posted @ 2019-06-24 15:30 virus丶舒 阅读(1716) 评论(0) 推荐(0) 编辑
摘要: 概述 Shuffle,翻译成中文就是洗牌。之所以需要Shuffle,还是因为具有某种共同特征的一类数据需要最终汇聚(aggregate)到一个计算节点上进行计算。这些数据分布在各个存储节点上并且由不同节点的计算单元处理。以最简单的Word Count为例,其中数据保存在Node1、Node2和Nod 阅读全文
posted @ 2019-06-24 15:24 virus丶舒 阅读(2456) 评论(0) 推荐(0) 编辑
摘要: 概述 之前我们提到:Driver 的sc负责和Executor交互,完成任务的分配和调度,在底层,任务调度模块主要包含两大部分: 1)DAGScheduler 2)TaskScheduler 它们负责将用户提交的计算任务按照DAG划分为不同的阶段并且将不同阶段的计算任务提交到集群进行最终的计算。整个 阅读全文
posted @ 2019-06-24 15:23 virus丶舒 阅读(339) 评论(0) 推荐(0) 编辑
摘要: 概述 为了更好地理解调度,我们先来鸟瞰一下集群模式下的Spark程序运行架构图。 1. Driver Program 用户编写的Spark程序称为Driver Program。每个Driver程序包含一个代表集群环境的SparkContext对象,程序的执行从Driver程序开始,所有操作执行结束后 阅读全文
posted @ 2019-06-24 15:10 virus丶舒 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 概述 相比Hadoop MapReduce来说,Spark计算具有巨大的性能优势,其中很大一部分原因是Spark对于内存的充分利用,以及提供的缓存机制。 RDD持久化(缓存) 持久化在早期被称作缓存(cache),但缓存一般指将内容放在内存中。虽然持久化操作在绝大部分情况下都是将RDD缓存在内存中, 阅读全文
posted @ 2019-06-19 06:38 virus丶舒 阅读(1960) 评论(0) 推荐(0) 编辑
摘要: 概述 Shuffle是Spark Core比较复杂的模块,它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。 1)spark.shuffle.manager Spark 1.2.0官方版本支持两种方式的Shuffle,即Hash Based Shuffle和Sort 阅读全文
posted @ 2019-06-19 06:37 virus丶舒 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 线性回归算法的基本原理 概念: 线性回归模型试图学得一个通过特征的线性组合来进行预测的函数.如果特征和结果都满足线性, 即不大于一次方, 系数确定之后, 那么模型就得以确定.许多功能更为强大的非线性模型可在线性模型的基础上,通过引入层级结构或高维映射而得. 实现: 1. 最小二乘法 选择未知参数, 阅读全文
posted @ 2019-06-18 17:42 virus丶舒 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 实现步骤: 1.从官网下载安装包 http://kafka.apache.org/downloads 2.上传到01虚拟机,解压 3.进入安装目录下的config目录 4.对server.properties进行配置 配置示例: broker.id=0 log.dirs=/home/software 阅读全文
posted @ 2019-06-18 10:43 virus丶舒 阅读(147) 评论(0) 推荐(0) 编辑