摘要:
实现步骤: 1)上传解压spark安装包 2)进入spark安装目录的conf目录 3)配置spark-env.sh文件 配置示例: #本机ip地址 SPARK_LOCAL_IP=hadoop01 #spark的shuffle中间过程会产生一些临时文件,此项指定的是其存放目录,不配置默认是在 /tm 阅读全文
摘要:
实现步骤: 1)安装和配置好JDK 2)上传和解压Spark安装包 3)进入Spark安装目录下的conf目录 复制conf spark-env.sh.template 文件为 spark-env.sh 在其中修改,增加如下内容: SPARK_LOCAL_IP=服务器IP地址 Spark单机模式启动 阅读全文
摘要:
概述 SparkSql将RDD封装成一个DataFrame对象,这个对象类似于关系型数据库中的表。 创建DataFrame对象 DataFrame就相当于数据库的一张表。它是个只读的表,不能在运算过程再往里加元素。 RDD.toDF("列名") scala> val rdd = sc.paralle 阅读全文
摘要:
通过api使用sparksql 实现步骤: 1)打开scala IDE开发环境,创建一个scala工程 2)导入spark相关依赖jar包 3)创建包路径以object类 4)写代码 代码示意: package cn.tedu.sparksql import org.apache.spark.Spa 阅读全文
摘要:
写入HBase表代码示例: import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.hadoop.hbase.mapreduce.TableOutputFormat import 阅读全文
摘要:
代码示例: import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.streaming.StreamingContext import org.apache.spar 阅读全文
摘要:
WordCount案例 案例一: import org.apache.spark.streaming._ val ssc = new StreamingContext(sc,Seconds(5)); val lines = ssc.textFileStream("file:///home/softw 阅读全文
摘要:
import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.Partitioner import org.apache.spark.HashPartitioner object Demo { def main(args: Array[String]): Uni... 阅读全文