随笔分类 -  10.spark

摘要:解压文件 D:\bigdata\spark2.1.0\spark-2.1.0-bin-hadoop2.7\bin 创建文件 spark scalahadoop scalascala sparkhive hadoop bin目录下 spark-shell.cmd 读文件处理文件 scala> sc.t 阅读全文
posted @ 2021-09-02 01:43 star521 阅读(639) 评论(0) 推荐(0) 编辑
摘要:resources下 log4j.properties 文件 log4j.rootCategory=ERROR, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target 阅读全文
posted @ 2021-09-02 01:40 star521 阅读(419) 评论(0) 推荐(0) 编辑
摘要:spark下 [root@s101 /soft/spark/bin]#./beeline Beeline version 1.2.1.spark2 by Apache Hive beeline> !connect jdbc:hive2://s101:10000/mydb 0: jdbc:hive2: 阅读全文
posted @ 2021-08-19 10:42 star521 阅读(157) 评论(0) 推荐(0) 编辑
摘要:1.规划 三台服务器 s101 //master(进程) s102 ~ s104 //worker(进程) 2.在每个主机上分别安装spark tar -zxvf /home/centos/download/spark-2.1.1-bin-hadoop2.7.tgz -C /soft/ ln -s 阅读全文
posted @ 2021-08-11 20:03 star521 阅读(139) 评论(0) 推荐(0) 编辑
摘要:Spark Streaming编程指南 概观 一个快速的例子 基本概念 链接 初始化StreamingContext 离散流(DStreams) 输入DStreams和Receivers DStreams的转换 DStreams的输出操作 DataFrame和SQL操作 MLlib运营 缓存/持久性 阅读全文
posted @ 2018-11-23 21:35 star521 阅读(397) 评论(0) 推荐(0) 编辑
摘要:TuningSpark 调整Spark 数据序列化 内存调整 内存管理概述 确定内存消耗 调整数据结构 序列化RDD存储 垃圾收集调整 其他考虑因素 并行程度 减少任务的内存使用情况 广播大变量 数据位置 摘要 内存管理概述 确定内存消耗 调整数据结构 序列化RDD存储 垃圾收集调整 并行程度 减少 阅读全文
posted @ 2018-11-23 20:31 star521 阅读(149) 评论(0) 推荐(0) 编辑
摘要:spark2.11 作业提交submit源码分析 分析spark的第一步spark submit SparkSubmit scala object SparkSubmit { // Cluster managers private val YARN = 1 private val STANDALON 阅读全文
posted @ 2018-10-16 10:57 star521 阅读(181) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示