10.spark - 随笔分类 - star521

003.windows下启动运行spark-spark-shell.cmd

摘要：解压文件 D:\bigdata\spark2.1.0\spark-2.1.0-bin-hadoop2.7\bin 创建文件 spark scalahadoop scalascala sparkhive hadoop bin目录下 spark-shell.cmd 读文件处理文件 scala> sc.t 阅读全文

posted @ 2021-09-02 01:43 star521 阅读(673) 评论(0) 推荐(0)

001.hadoop-log4j.properties配置

摘要：resources下 log4j.properties 文件 log4j.rootCategory=ERROR, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target 阅读全文

posted @ 2021-09-02 01:40 star521 阅读(448) 评论(0) 推荐(0)

010.hive-spark下启动beeline客户端

摘要：spark下 [root@s101 /soft/spark/bin]#./beeline Beeline version 1.2.1.spark2 by Apache Hive beeline> !connect jdbc:hive2://s101:10000/mydb 0: jdbc:hive2: 阅读全文

posted @ 2021-08-19 10:42 star521 阅读(173) 评论(0) 推荐(0)

02.spark-spark分布式安装

摘要：1.规划三台服务器 s101 //master(进程) s102 ~ s104 //worker(进程) 2.在每个主机上分别安装spark tar -zxvf /home/centos/download/spark-2.1.1-bin-hadoop2.7.tgz -C /soft/ ln -s 阅读全文

posted @ 2021-08-11 20:03 star521 阅读(152) 评论(0) 推荐(0)

01 sparkAPI-阅读总结-sparkstreaming

摘要：Spark Streaming编程指南概观一个快速的例子基本概念链接初始化StreamingContext 离散流（DStreams）输入DStreams和Receivers DStreams的转换 DStreams的输出操作 DataFrame和SQL操作 MLlib运营缓存/持久性阅读全文

posted @ 2018-11-23 21:35 star521 阅读(420) 评论(0) 推荐(0)

01 sparkAPI-阅读总结-TuningSpark

摘要：TuningSpark 调整Spark 数据序列化内存调整内存管理概述确定内存消耗调整数据结构序列化RDD存储垃圾收集调整其他考虑因素并行程度减少任务的内存使用情况广播大变量数据位置摘要内存管理概述确定内存消耗调整数据结构序列化RDD存储垃圾收集调整并行程度减少阅读全文

posted @ 2018-11-23 20:31 star521 阅读(170) 评论(0) 推荐(0)

01 spark2.11-作业提交submit源码分析

摘要：spark2.11 作业提交submit源码分析分析spark的第一步spark submit SparkSubmit scala object SparkSubmit { // Cluster managers private val YARN = 1 private val STANDALON 阅读全文

posted @ 2018-10-16 10:57 star521 阅读(194) 评论(0) 推荐(0)

star521

随笔分类 - 10.spark

公告