xuejianbest

摘要：注册：// 创建它的SparkSession对象终止前有效df.createOrReplaceTempView("tempViewName") // spark应用程序终止前有效df.createOrReplaceGlobalTempView("tempV... 阅读全文

posted @ 2019-01-04 17:25 xuejianbest 阅读(1961) 评论(0) 推荐(0) 编辑

摘要： VectorAssembler将不同的特征列进行组合，成为特征向量列，作为训练学习器的输入列。val df = spark.createDataset(List( (1, "a", 3), (2, "", 4))).toDF("f1", "f2", "... 阅读全文

posted @ 2019-01-04 17:25 xuejianbest 阅读(953) 评论(0) 推荐(0) 编辑

摘要：二元转换BinarizerBinarizer是将连续型变量根据某个阈值，转换成二元的分类变量。小于该阈值的转换为0，大于该阈值的转换为1。要求输入列必须是double，int都会报错。如下：输入的是0.1，0.8，0.2连续型变量，要以0.5为阈值来转换成二... 阅读全文

posted @ 2019-01-04 17:25 xuejianbest 阅读(1233) 评论(0) 推荐(0) 编辑

摘要：代码：val file = "/root/dir/jhzf.properties"val tableName = "spark_timetime"import java.util.Propertiesval properties = new Properti... 阅读全文

posted @ 2019-01-04 17:24 xuejianbest 阅读(2093) 评论(0) 推荐(0) 编辑

摘要：两个概念：分区partition分区器partitionerpartitionRDD有个partitions方法：final def partitions: Array[Partition]，能够返回一个数组，数组元素是RDD的partition。parti... 阅读全文

posted @ 2019-01-04 17:24 xuejianbest 阅读(4003) 评论(0) 推荐(1) 编辑

摘要： spark-shell或spark-submit，载入jdbc的jar包：--jars /mysql-connector-java-*-bin.jarspark使用jdbc读写数据库：//读数据库import java.util.Propertiesval ... 阅读全文

posted @ 2019-01-04 17:24 xuejianbest 阅读(754) 评论(0) 推荐(0) 编辑

摘要： spark-shell运行，若要载入hbase的jar包：export SPARK_CLASSPATH=/opt/hbase-1.2.4/lib/*获取hbase中列簇中的列值：import org.apache.spark._import org.apac... 阅读全文

posted @ 2019-01-04 17:24 xuejianbest 阅读(857) 评论(0) 推荐(0) 编辑

摘要：使用：$spark-submit --helpUsage: spark-submit [options] [app arguments]举例：spark-submit --master yarn-cluster \--class Tkmeans \--co... 阅读全文

posted @ 2019-01-04 17:24 xuejianbest 阅读(1023) 评论(0) 推荐(0) 编辑

摘要：本文基于spark-1.6.2-bin-hadoop2.6提交到本地程序中指定的参数（param）和spark-submit提交时参数配置一致：import org.apache.spark.deploy.SparkSubmit;public class D... 阅读全文

posted @ 2019-01-04 17:24 xuejianbest 阅读(3844) 评论(0) 推荐(0) 编辑

摘要： spark可以不进行任何配置，直接运行，这时候spark像一个java程序一样，是直接运行在VM中的。spark还支持提交任务到YARN管理的集群，称为spark on yarn模式。spark还支持Mesos管理的集群，Mesos和YARN一样都是管理集群... 阅读全文

posted @ 2019-01-04 17:24 xuejianbest 阅读(1295) 评论(0) 推荐(0) 编辑