2.0--Spark - 随笔分类 - 智能先行者

Spark Streaming之dataset实例

摘要：Spark Streaming是核心Spark API的扩展，可实现实时数据流的可扩展，高吞吐量，容错流处理。 bin/spark-submit --class Streaming /home/wx/Stream.jar hadoop fs -put /home/wx/123.txt /user/w 阅读全文

posted @ 2017-07-31 19:59 智能先行者阅读(1322) 评论(0) 推荐(1)

Spark连接MongoDB之Scala

摘要：MongoDB Connector for Spark Spark Connector Scala Guide spark-shell --jars "mongo-spark-connector_2.11-2.0.0.jar,mongo-hadoop-core-2.0.2.jar,mongo-jav 阅读全文

posted @ 2017-07-14 15:34 智能先行者阅读(2884) 评论(0) 推荐(2)

Spark JDBC To MySQL

摘要：mysql jdbc driver下载地址https://dev.mysql.com/downloads/connector/j/在spark中使用jdbc1.在 spark-env.sh 文件中加入:export SPARK_CLASSPATH=/path/mysql-connector-java 阅读全文

posted @ 2017-06-10 14:59 智能先行者阅读(20292) 评论(0) 推荐(1)

Spark Distributed matrix 分布式矩阵

摘要：RowMatrix行矩阵 CoordinateMatrix坐标矩阵阅读全文

posted @ 2017-05-06 08:53 智能先行者阅读(2905) 评论(0) 推荐(0)

Spark注册UDF函数，用于DataFrame DSL or SQL

摘要：import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ object Test2 { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .appName... 阅读全文

posted @ 2017-05-02 20:51 智能先行者阅读(3459) 评论(0) 推荐(0)

Spark Gradient-boosted trees (GBTs)梯度提升树

摘要：梯度提升树（GBT）是决策树的集合。 GBT迭代地训练决策树以便使损失函数最小化。 spark.ml实现支持GBT用于二进制分类和回归，可以使用连续和分类特征。导入包导入数据源 GBT建模代码执行结果阅读全文

posted @ 2017-01-04 13:17 智能先行者阅读(2749) 评论(0) 推荐(0)

Spark Multilayer perceptron classifier (MLPC)多层感知器分类器

摘要：多层感知器分类器（MLPC）是基于前馈人工神经网络(ANN)的分类器。 MLPC由多个节点层组成。每个层完全连接到网络中的下一层。输入层中的节点表示输入数据。所有其他节点,通过输入与节点的权重w和偏置b的线性组合,并应用激活函数,将输入映射到输出。对于具有K + 1层的MLPC，这可以以矩阵阅读全文

posted @ 2016-12-27 15:21 智能先行者阅读(6095) 评论(1) 推荐(0)

Spark LogisticRegression 逻辑回归之建模

摘要：导入包导入源数据逻辑回归建模代码执行结果阅读全文

posted @ 2016-12-27 09:23 智能先行者阅读(11651) 评论(6) 推荐(2)

Spark2 Random Forests 随机森林

摘要：随机森林是决策树的集合。随机森林结合许多决策树，以减少过度拟合的风险。 spark.ml实现支持随机森林，使用连续和分类特征，做二分类和多分类以及回归。导入包导入源数据随机森林建模代码执行结果随机森林模型调优阅读全文

posted @ 2016-12-26 15:02 智能先行者阅读(2107) 评论(0) 推荐(0)

Spark LogisticRegression 逻辑回归之简介

摘要：LogisticRegression简介阅读全文

posted @ 2016-12-23 15:20 智能先行者阅读(943) 评论(1) 推荐(0)

Spark Pipeline

摘要：一个简单的Pipeline，用作estimator。Pipeline由有序列的stages组成，每个stage是一个Estimator或者一个Transformer。当Pipeline调用fit，stages按顺序被执行。如果一个stage是一个Estimator，将调用Estimator的fit 阅读全文

posted @ 2016-12-22 21:37 智能先行者阅读(1704) 评论(0) 推荐(1)

Spark2 Model selection and tuning 模型选择与调优

摘要：Model selection模型选择 ML中的一个重要任务是模型选择，或使用数据为给定任务找到最佳的模型或参数。这也称为调优。可以对诸如Logistic回归的单独Estimators进行调整，或者对包括多个算法，特征和其他步骤的整个Pipeline进行调整。用户可以一次调整整个Pipelin 阅读全文

posted @ 2016-12-22 10:39 智能先行者阅读(766) 评论(0) 推荐(0)

Accelerated Failure Time Models加速失效时间模型AFT

摘要：Weibull distribution 或者 σ是未知的scale参数，独立于X的常量， σ>0 是服从某一分布的随机变量残差(residuals)= 阅读全文

posted @ 2016-12-14 22:28 智能先行者阅读(3932) 评论(0) 推荐(0)

Spark2 生存分析Survival regression

摘要：在spark.ml中，实现了加速失效时间（AFT）模型，这是一个用于检查数据的参数生存回归模型。它描述了生存时间对数的模型，因此它通常被称为生存分析的对数线性模型。不同于为相同目的设计的比例风险模型，AFT模型更容易并行化，因为每个实例独立地贡献于目标函数。当在具有常量非零列的数据集上匹配AF 阅读全文

posted @ 2016-12-09 17:13 智能先行者阅读(2627) 评论(0) 推荐(0)

高斯混合模型Gaussian Mixture Model (GMM)

摘要：混合高斯模型GMM是指对样本的概率密度分布进行估计，而估计采用的模型（训练模型）是几个高斯模型的加权和（具体是几个要在模型训练前建立好）。每个高斯模型就代表了一个类（一个Cluster）。对样本中的数据分别在几个高斯模型上投影，就会分别得到在各个类上的概率。然后我们可以选取概率最大的类所为判决结果。阅读全文

posted @ 2016-12-08 17:51 智能先行者阅读(1416) 评论(0) 推荐(0)

spark脚本日志输出级别设置

摘要：import org.apache.log4j.{ Level, Logger } Logger.getLogger("org").setLevel(Level.WARN) Logger.getLogger("org.apache.spark").setLevel(Level.WARN) Logge 阅读全文

posted @ 2016-12-05 16:09 智能先行者阅读(4038) 评论(0) 推荐(0)

Spark特征(提取，转换，选择)extracting, transforming and selecting features

摘要：VectorAssembler字段转换成特征向量 VectorIndexer自动识别分类的特征，并对它们进行索引 VectorSlicer向量切割 Bucketizer将连续数据离散化到指定的范围区间阅读全文

posted @ 2016-12-02 13:54 智能先行者阅读(2448) 评论(0) 推荐(0)

Spark2 探索性数据统计分析

摘要：data数据源，请参考我的博客http://www.cnblogs.com/wwxbi/p/6063613.html import org.apache.Spark.sql.DataFrameStatFunctions import org.apache.spark.sql.functions._ 阅读全文

posted @ 2016-12-02 13:11 智能先行者阅读(2100) 评论(0) 推荐(0)

Scala日期处理

摘要：计算时间间隔产生日期序列执行结果阅读全文

posted @ 2016-11-30 10:15 智能先行者阅读(4268) 评论(0) 推荐(0)

Spark2 SQL configuration参数配置

摘要：查看当前环境SQL参数的配置阅读全文

posted @ 2016-11-29 17:17 智能先行者阅读(5902) 评论(0) 推荐(0)

智能先行者

随笔分类 - 2.0--Spark

公告