摘要:合理的并行度 减少任务启动开销 选择合适的batch Duration 内存调优 设置合理的cpu数
阅读全文
摘要:依赖管理 基本套路 Dstream输入源 input DStream Dstream输入源 Receiver 内置的input Dstream : Basic Source 内置的input Dstream :Advanced Sources Dstream 输入源: multiple input
阅读全文
摘要:SparkStreaming 运行原理 sparkstreaming 的高层抽象DStream Dstream与RDD的关系 Batch duration
阅读全文
摘要:下在集群跑一下 监听1212端口(端口可以自己随便取) 可以看到反馈信息
阅读全文
摘要:批处理 & 流处理 像这个是批处理 像这样就是流处理 为什么需要流处理--更多场景需要 Spark Core & RDD 本质上是离线运算 Spark Streaming是什么(分布式的流处理系统) Spark Streaming是什么 Spark Streaming的竞争对手(两都是apache的
阅读全文
摘要:Caching Data in Memory 其他调优参数
阅读全文
摘要:SparkSQL作为分布式查询引擎:两种方式 SparkSQL作为分布式查询引擎:Thrift JDBC/ODBC服务 SparkSQL作为分布式查询引擎:Thrift JDBC/ODBC服务 SparkSQL作为分布式查询引擎: beeline SparkSQL作为分布式查询引擎: Spark S
阅读全文
摘要:Spark SQL的依赖 Spark SQL的入口:SQLContext 官方网站参考 https://spark.apache.org/docs/1.6.2/sql-programming-guide.html#starting-point-sqlcontext 针对几种不同的语言来写。 Spar
阅读全文
摘要:Spark SQL 模块划分 Spark SQL架构--catalyst设计图 Spark SQL 运行架构 Hive的兼容性
阅读全文
摘要:Spark SQL是什么? 何为结构化数据 sparkSQL与spark Core的关系 Spark SQL的前世今生:由Shark发展而来 Spark SQL的前世今生:可以追溯到Hive Spark SQL的前世今生:Hive 到Shark(在Hive上做改进) Spark SQL的前世今生:S
阅读全文
摘要:参考官方地址:https://spark.apache.org/docs/1.6.2/programming-guide.html 误解: spark多语言的支持,并不是说spark可以操作各个语言写的程序。而是各种语言可以使用spark提供的编程模型来开发spark程序,并连接spark集群来运行
阅读全文
摘要:累加器 -- Accumulators 广播变量--Broadcast Variables 思考 回顾 存储管理模块架构--从架构上来看 存储管理模块架构--通信层 存储管理模块架构--存储层 存储管理模块架构--数据块与分区的关系 回顾-RDD控制操作 持久化级别 如何选择持久化级别 缓存淘汰机制
阅读全文
摘要:打包 Spark application 使用spark-submit启动Spark application spark-submit usage spark-submit option 运行模式相关 spark-submit options-常规 spark-submit options-clas
阅读全文
摘要:REPL Spark REPL Spark shell 下面我们启动一下(我这里搭建的是3节点集群) sc.后面按TAB键可以把提示调出来 查看hdfs上文件内容 这个数据从这里下载的 https://www.sogou.com/labs/resource/q.php 试下读下里面的数据 这个可以求
阅读全文
摘要:YARN是什么 YARN在hadoop生态系统中的位置 YARN产生的背景 YARN的基本架构 ResourceManager NodeManager ApplicationMaster container Spark On Yarn 配置和部署 编译时包含yarn 基本配置 在没有配置的前提下试下
阅读全文
摘要:Spark Standalone 部署配置 Standalone架构 手工启动一个Spark集群 https://spark.apache.org/docs/latest/spark-standalone.html 通过脚本启动集群 编辑slaves,其实把worker所在节点添加进去 配置spar
阅读全文
摘要:Spark编程模型的回顾 spark编程模型几大要素 RDD的五大特征 Application program的组成 运行流程概述 具体流程(以standalone模式为例) 任务调度 DAGScheduler TaskScheduler DAGScheduler ScheduleBacked 详细
阅读全文
摘要:创建Pair RDD 什么是Pair RDD 创建Pair RDD Pair RDD的转化操作 Pair RDD的转化操作1 在xshell启动 reduceByKey的意思是把相同的key的value的值相加起来 Pair RDD转换操作2 Pair RDD的action操作 Pair RDD转换
阅读全文
摘要:先在IDEA新建一个maven项目 我这里用的是jdk1.8,选择相应的骨架 这里选择本地在window下安装的maven 新的项目创建成功 我的开始pom.xml文件配置 先在终端下试下打包 可以看到失败了!!! 把这几个生成默认的东西删除掉 再次测试 成功了 把他clean一下 进入自己在虚拟机
阅读全文
摘要:Spark的编程模型 核心概念(注意对比MR里的概念来学习) Spark Application的组成 Spark Application基本概念 Spark Application编程模型 回顾scala版本的 wordcount程序 初识RDD 什么是RDD RDD接口 RDD的本质特征 RDD
阅读全文