摘要:
注册:// 创建它的SparkSession对象终止前有效df.createOrReplaceTempView("tempViewName") // spark应用程序终止前有效df.createOrReplaceGlobalTempView("tempV... 阅读全文
摘要:
VectorAssembler将不同的特征列进行组合,成为特征向量列,作为训练学习器的输入列。val df = spark.createDataset(List( (1, "a", 3), (2, "", 4))).toDF("f1", "f2", "... 阅读全文
摘要:
二元转换BinarizerBinarizer是将连续型变量根据某个阈值,转换成二元的分类变量。小于该阈值的转换为0,大于该阈值的转换为1。要求输入列必须是double,int都会报错。如下:输入的是0.1,0.8,0.2连续型变量,要以0.5为阈值来转换成二... 阅读全文
摘要:
代码:val file = "/root/dir/jhzf.properties"val tableName = "spark_timetime"import java.util.Propertiesval properties = new Properti... 阅读全文
摘要:
两个概念:分区partition分区器partitionerpartitionRDD有个partitions方法:final def partitions: Array[Partition],能够返回一个数组,数组元素是RDD的partition。parti... 阅读全文
摘要:
spark-shell或spark-submit,载入jdbc的jar包:--jars /mysql-connector-java-*-bin.jarspark使用jdbc读写数据库://读数据库import java.util.Propertiesval ... 阅读全文
摘要:
spark-shell运行,若要载入hbase的jar包:export SPARK_CLASSPATH=/opt/hbase-1.2.4/lib/*获取hbase中列簇中的列值:import org.apache.spark._import org.apac... 阅读全文
摘要:
使用:$spark-submit --helpUsage: spark-submit [options] [app arguments]举例:spark-submit --master yarn-cluster \--class Tkmeans \--co... 阅读全文
摘要:
本文基于spark-1.6.2-bin-hadoop2.6提交到本地程序中指定的参数(param)和spark-submit提交时参数配置一致:import org.apache.spark.deploy.SparkSubmit;public class D... 阅读全文
摘要:
spark可以不进行任何配置,直接运行,这时候spark像一个java程序一样,是直接运行在VM中的。spark还支持提交任务到YARN管理的集群,称为spark on yarn模式。spark还支持Mesos管理的集群,Mesos和YARN一样都是管理集群... 阅读全文