百里登风

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

随笔分类 -  spark

1

SparkStreaming性能调优
摘要:合理的并行度 减少任务启动开销 选择合适的batch Duration 内存调优 设置合理的cpu数 阅读全文

posted @ 2017-09-08 00:34 百里登峰 阅读(167) 评论(0) 推荐(0) 编辑

SparkStreaming 的编程模型
摘要:依赖管理 基本套路 Dstream输入源 input DStream Dstream输入源 Receiver 内置的input Dstream : Basic Source 内置的input Dstream :Advanced Sources Dstream 输入源: multiple input 阅读全文

posted @ 2017-09-07 23:00 百里登峰 阅读(372) 评论(0) 推荐(0) 编辑

SparkStreaming 运行原理与核心概念
摘要:SparkStreaming 运行原理 sparkstreaming 的高层抽象DStream Dstream与RDD的关系 Batch duration 阅读全文

posted @ 2017-09-07 10:49 百里登峰 阅读(261) 评论(0) 推荐(0) 编辑

Spark Streaming 例子
摘要:下在集群跑一下 监听1212端口(端口可以自己随便取) 可以看到反馈信息 阅读全文

posted @ 2017-09-05 23:41 百里登峰 阅读(392) 评论(0) 推荐(0) 编辑

spark streaming 概述
摘要:批处理 & 流处理 像这个是批处理 像这样就是流处理 为什么需要流处理--更多场景需要 Spark Core & RDD 本质上是离线运算 Spark Streaming是什么(分布式的流处理系统) Spark Streaming是什么 Spark Streaming的竞争对手(两都是apache的 阅读全文

posted @ 2017-09-05 12:03 百里登峰 阅读(134) 评论(0) 推荐(0) 编辑

spark sql 的性能调优
摘要:Caching Data in Memory 其他调优参数 阅读全文

posted @ 2017-09-05 09:44 百里登峰 阅读(200) 评论(0) 推荐(0) 编辑

Spark 分布式SQL引擎
摘要:SparkSQL作为分布式查询引擎:两种方式 SparkSQL作为分布式查询引擎:Thrift JDBC/ODBC服务 SparkSQL作为分布式查询引擎:Thrift JDBC/ODBC服务 SparkSQL作为分布式查询引擎: beeline SparkSQL作为分布式查询引擎: Spark S 阅读全文

posted @ 2017-09-02 15:48 百里登峰 阅读(716) 评论(0) 推荐(0) 编辑

Spark SQL 编程
摘要:Spark SQL的依赖 Spark SQL的入口:SQLContext 官方网站参考 https://spark.apache.org/docs/1.6.2/sql-programming-guide.html#starting-point-sqlcontext 针对几种不同的语言来写。 Spar 阅读全文

posted @ 2017-09-02 00:42 百里登峰 阅读(333) 评论(0) 推荐(0) 编辑

Spark SQL 基本原理
摘要:Spark SQL 模块划分 Spark SQL架构--catalyst设计图 Spark SQL 运行架构 Hive的兼容性 阅读全文

posted @ 2017-09-01 11:23 百里登峰 阅读(352) 评论(0) 推荐(0) 编辑

spark SQL概述
摘要:Spark SQL是什么? 何为结构化数据 sparkSQL与spark Core的关系 Spark SQL的前世今生:由Shark发展而来 Spark SQL的前世今生:可以追溯到Hive Spark SQL的前世今生:Hive 到Shark(在Hive上做改进) Spark SQL的前世今生:S 阅读全文

posted @ 2017-08-30 23:56 百里登峰 阅读(162) 评论(0) 推荐(0) 编辑

spark 多语言编程
摘要:参考官方地址:https://spark.apache.org/docs/1.6.2/programming-guide.html 误解: spark多语言的支持,并不是说spark可以操作各个语言写的程序。而是各种语言可以使用spark提供的编程模型来开发spark程序,并连接spark集群来运行 阅读全文

posted @ 2017-08-29 09:49 百里登峰 阅读(318) 评论(0) 推荐(0) 编辑

spark 存储管理机制
摘要:累加器 -- Accumulators 广播变量--Broadcast Variables 思考 回顾 存储管理模块架构--从架构上来看 存储管理模块架构--通信层 存储管理模块架构--存储层 存储管理模块架构--数据块与分区的关系 回顾-RDD控制操作 持久化级别 如何选择持久化级别 缓存淘汰机制 阅读全文

posted @ 2017-08-25 17:34 百里登峰 阅读(255) 评论(0) 推荐(0) 编辑

spark 应用程序部署工具 spark-submit
摘要:打包 Spark application 使用spark-submit启动Spark application spark-submit usage spark-submit option 运行模式相关 spark-submit options-常规 spark-submit options-clas 阅读全文

posted @ 2017-08-24 21:32 百里登峰 阅读(309) 评论(0) 推荐(0) 编辑

Spark交互式工具spark-shell
摘要:REPL Spark REPL Spark shell 下面我们启动一下(我这里搭建的是3节点集群) sc.后面按TAB键可以把提示调出来 查看hdfs上文件内容 这个数据从这里下载的 https://www.sogou.com/labs/resource/q.php 试下读下里面的数据 这个可以求 阅读全文

posted @ 2017-08-23 23:44 百里登峰 阅读(420) 评论(0) 推荐(0) 编辑

Spark on Yarn
摘要:YARN是什么 YARN在hadoop生态系统中的位置 YARN产生的背景 YARN的基本架构 ResourceManager NodeManager ApplicationMaster container Spark On Yarn 配置和部署 编译时包含yarn 基本配置 在没有配置的前提下试下 阅读全文

posted @ 2017-08-20 22:18 百里登峰 阅读(194) 评论(0) 推荐(0) 编辑

Spark standalone运行模式
摘要:Spark Standalone 部署配置 Standalone架构 手工启动一个Spark集群 https://spark.apache.org/docs/latest/spark-standalone.html 通过脚本启动集群 编辑slaves,其实把worker所在节点添加进去 配置spar 阅读全文

posted @ 2017-08-16 20:27 百里登峰 阅读(933) 评论(0) 推荐(0) 编辑

Spark运行模式概述
摘要:Spark编程模型的回顾 spark编程模型几大要素 RDD的五大特征 Application program的组成 运行流程概述 具体流程(以standalone模式为例) 任务调度 DAGScheduler TaskScheduler DAGScheduler ScheduleBacked 详细 阅读全文

posted @ 2017-08-12 23:15 百里登峰 阅读(259) 评论(0) 推荐(0) 编辑

Spark 编程模型(下)
摘要:创建Pair RDD 什么是Pair RDD 创建Pair RDD Pair RDD的转化操作 Pair RDD的转化操作1 在xshell启动 reduceByKey的意思是把相同的key的value的值相加起来 Pair RDD转换操作2 Pair RDD的action操作 Pair RDD转换 阅读全文

posted @ 2017-08-12 18:07 百里登峰 阅读(166) 评论(0) 推荐(0) 编辑

Spark 编程模型(中)
摘要:先在IDEA新建一个maven项目 我这里用的是jdk1.8,选择相应的骨架 这里选择本地在window下安装的maven 新的项目创建成功 我的开始pom.xml文件配置 先在终端下试下打包 可以看到失败了!!! 把这几个生成默认的东西删除掉 再次测试 成功了 把他clean一下 进入自己在虚拟机 阅读全文

posted @ 2017-08-11 23:06 百里登峰 阅读(259) 评论(0) 推荐(0) 编辑

Spark 编程模型(上)
摘要:Spark的编程模型 核心概念(注意对比MR里的概念来学习) Spark Application的组成 Spark Application基本概念 Spark Application编程模型 回顾scala版本的 wordcount程序 初识RDD 什么是RDD RDD接口 RDD的本质特征 RDD 阅读全文

posted @ 2017-08-11 18:18 百里登峰 阅读(256) 评论(0) 推荐(0) 编辑

1
点击右上角即可分享
微信分享提示