随笔分类 - 10.spark
摘要:解压文件 D:\bigdata\spark2.1.0\spark-2.1.0-bin-hadoop2.7\bin 创建文件 spark scalahadoop scalascala sparkhive hadoop bin目录下 spark-shell.cmd 读文件处理文件 scala> sc.t
阅读全文
摘要:resources下 log4j.properties 文件 log4j.rootCategory=ERROR, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target
阅读全文
摘要:spark下 [root@s101 /soft/spark/bin]#./beeline Beeline version 1.2.1.spark2 by Apache Hive beeline> !connect jdbc:hive2://s101:10000/mydb 0: jdbc:hive2:
阅读全文
摘要:1.规划 三台服务器 s101 //master(进程) s102 ~ s104 //worker(进程) 2.在每个主机上分别安装spark tar -zxvf /home/centos/download/spark-2.1.1-bin-hadoop2.7.tgz -C /soft/ ln -s
阅读全文
摘要:Spark Streaming编程指南 概观 一个快速的例子 基本概念 链接 初始化StreamingContext 离散流(DStreams) 输入DStreams和Receivers DStreams的转换 DStreams的输出操作 DataFrame和SQL操作 MLlib运营 缓存/持久性
阅读全文
摘要:TuningSpark 调整Spark 数据序列化 内存调整 内存管理概述 确定内存消耗 调整数据结构 序列化RDD存储 垃圾收集调整 其他考虑因素 并行程度 减少任务的内存使用情况 广播大变量 数据位置 摘要 内存管理概述 确定内存消耗 调整数据结构 序列化RDD存储 垃圾收集调整 并行程度 减少
阅读全文
摘要:spark2.11 作业提交submit源码分析 分析spark的第一步spark submit SparkSubmit scala object SparkSubmit { // Cluster managers private val YARN = 1 private val STANDALON
阅读全文