摘要:一、RDD编程模型 ### RDD编程模型 ~~~ RDD表示数据对象 ~~~ 通过对象上的方法调用来对RDD进行转换 ~~~ 最终显示结果 或 将结果输出到外部数据源 ~~~ RDD转换算子称为Transformation是Lazy的(延迟执行) ~~~ 只有遇到Action算子,才会执行RDD的
阅读全文
摘要:一、RDD编程 ### 什么是RDD ~~~ RDD是 Spark 的基石,是实现 Spark 数据处理的核心抽象。 ~~~ RDD 是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 ~~~ RDD(Resilient Distributed Dataset)是 Spark 中的
阅读全文
摘要:NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of
阅读全文
摘要:一、集群模式--Yarn模式 ### 集群模式-Yarn模式 ~~~ 参考:http://spark.apache.org/docs/latest/running-on-yarn.html ~~~ 需要启动的服务:hdfs服务、yarn服务 ~~~ 需要关闭 Standalone 对应的服务(即集群
阅读全文
摘要:一、创建工程 ### 创建一个maven工程: ~~~ Create New Project——>Maven——>Next——>Name:SparkBigData——>Finish——>END ### 安装scala插件;能读写HDFS文件 ### 导入依赖插件,写入pom.xml文件 <?xml
阅读全文
摘要:一、高可用配置 ### spark standalone集群配置说明 ~~~ Spark Standalone集群是 Master-Slaves架构的集群模式, ~~~ 和大部分的Master-Slaves结构集群一样,存着Master单点故障的问题。 ### 如何解决这个问题,Spark提供了两种
阅读全文
摘要:一、运行模式(cluster / client) ### 运行模式(cluster / client) ~~~ 最大的区别:Driver运行在哪里;client是缺省的模式,能看见返回结果,适合调试;cluster与此相反; ~~~ Client模式:(缺省)Driver运行在提交任务的Client
阅读全文
摘要:一、History Server配置 ### History Server ~~~ # 配置服务的history server:spark-defaults.conf\ [root@hadoop02 ~]# vim $SPARK_HOME/conf/spark-defaults.conf # his
阅读全文
摘要:一、集群模式--Standalone模式 ### 集群模式--Standalone模式 ~~~ 参考:http://spark.apache.org/docs/latest/spark-standalone.html ~~~ 分布式部署才能真正体现分布式计算的价值 ~~~ 与单机运行的模式不同,这里
阅读全文
摘要:一、伪分布式 ### 伪分布式 ~~~ # 伪分布式模式:在一台机器中模拟集群运行,相关的进程在同一台机器上; ~~~ # 备注:不用启动集群资源管理服务; ~~~ local-cluster[N,cores,memory] ~~~ N模拟集群的 Slave(或worker)节点个数 ~~~ cor
阅读全文
摘要:一、Spark概述 ### 什么是Spark ~~~ Spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算引擎 ~~~ 2009年诞生于美国加州大学伯克利分校AMP 实验室 ~~~ 2010年通过BSD许可协议开源发布 ~~~ 2013年捐赠给Apache软件基金会并切换开源协议到切换许
阅读全文
摘要:一、Spark官方地址 ### Spark安装 ~~~ 官网地址:http://spark.apache.org/ ~~~ 文档地址:http://spark.apache.org/docs/latest/ ~~~ 下载地址:http://spark.apache.org/downloads.htm
阅读全文
摘要:一、本地模式 ### 本地模式 ~~~ 本地模式部署在单机,主要用于测试或实验; ~~~ 最简单的运行模式,所有进程都运行在一台机器的 JVM 中; ~~~ 本地模式用单机的多个线程来模拟Spark分布式计算, ~~~ 通常用来验证开发出来的应用程序逻辑上有没有问题; ~~~ 这种模式非常简单,只需
阅读全文
摘要:### 课程大纲 ~~~ Spark Core -- 离线 ~~~ Spark SQL -- 离线、交互 ~~~ Spark Streaming -- 实时 ~~~ Spark GraphX -- 图处理 ~~~ Spark原理 ~~~ MapReduce、Spark、Flink(实时) => 3代
阅读全文
摘要:NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of
阅读全文