摘要:
混合高斯模型GMM是指对样本的概率密度分布进行估计,而估计采用的模型(训练模型)是几个高斯模型的加权和(具体是几个要在模型训练前建立好)。每个高斯模型就代表了一个类(一个Cluster)。对样本中的数据分别在几个高斯模型上投影,就会分别得到在各个类上的概率。然后我们可以选取概率最大的类所为判决结果。 阅读全文
摘要:
以下绘图以Weibull分布(韦伯分布、威布尔分布)为例 关于Weibull分布(韦伯分布、威布尔分布),请参考本人博客http://www.cnblogs.com/wwxbi/p/6141501.html 阅读全文
摘要:
log函数 从概率论和统计学角度看,Weibull Distribution是连续性的概率分布,其概率密度为: 其中,x是随机变量,λ>0是比例参数(scale parameter),k>0是形状参数(shape parameter)。显然,它的累积分布函数是扩展的指数分布函数,而且,Weibull 阅读全文
摘要:
一、生存分析(survival analysis)的定义 生存分析:对一个或多个非负随机变量进行统计推断,研究生存现象和响应时间数据及其统计规律的一门学科。 生存分析:既考虑结果又考虑生存时间的一种统计方法,并可充分利用截尾数据所提供的不完全信息,对生存时间的分布特征进行描述,对影响生存时间的主要因 阅读全文
摘要:
import org.apache.log4j.{ Level, Logger } Logger.getLogger("org").setLevel(Level.WARN) Logger.getLogger("org.apache.spark").setLevel(Level.WARN) Logge 阅读全文
摘要:
VectorAssembler字段转换成特征向量 VectorIndexer自动识别分类的特征,并对它们进行索引 VectorSlicer向量切割 Bucketizer将连续数据离散化到指定的范围区间 阅读全文
摘要:
data数据源,请参考我的博客http://www.cnblogs.com/wwxbi/p/6063613.html import org.apache.Spark.sql.DataFrameStatFunctions import org.apache.spark.sql.functions._ 阅读全文
摘要:
计算时间间隔 产生日期序列 执行结果 阅读全文