摘要:
1、概念 逻辑回归是预测分类相应的常用方法。广义线性回归的一个特例是预测结果的概率。在spark.ml逻辑回归中,可以使用二项逻辑回归来预测二元结果,或者可以使用多项逻辑回归来预测多类结果。使用该family参数在这两种算法之间选择,或者保持不设置(缺省auto),Spark将推断出正确的变量。 通 阅读全文
摘要:
1、StringIndexer 标签索引器,它将标签的字符串列映射到标签索引的ML列。 如果输入列为数字,则将其强制转换为字符串并为字符串值编制索引。 索引在[0,numLabels)中。 索引构建的顺序为标签的频率,优先编码频率较大的标签,所以出现频率最高的标签为0号 默认情况下,按标签频率排序, 阅读全文
摘要:
1、概念 提高决策树或随机森林等ML方法的分类效果。VectorIndexer是对数据集特征向量中的类别(离散值)特征(index categorical features categorical features )进行编号。它能够自动判断那些特征是离散值型的特征,并对他们进行编号,具体做法是通过 阅读全文