摘要:
特征选择(Feature Selection)指的是在特征向量中选择出那些“优秀”的特征,组成新的、更“精简”的特征向量的过程。它在 高维数据分析中十分常用,可以剔除掉“冗余”和“无关”的特征,提升学习器的性能。特征选择方法和分类方法一样,也主要分为有监督(Supervised)和无监督(Unsup 阅读全文
摘要:
之前介绍的StringIndexer是针对单个类别型特征进行转换,倘若所有特征都已经被组织在一个向量中 ,又想对其中某些单个分量进行处理时,Spark ML提供了VectorIndexer类来解决向量数据集中的类别 性特征转换。通过为其提供maxCategories超参数,它可以自动识别哪些特征是类 阅读全文
摘要:
独热编码(One-Hot Encoding) 是指把一列类别性特征(或称名词性特征,nominal/categorical features)映射成一系列的二元 连续特征的过程,原有的类别性特征有几种可能取值,这一特征就会被映射成几个二元连续特征,每一个特征代表一种取值,若该样 本表现出该特征,则 阅读全文
摘要:
与StringIndexer相对应,IndexToString的作用是把标签索引的一列重新映射回原有的字符型标签。 其主要使用场景一般都是和StringIndexer配合,先用StringIndexer将标签转化成标签索引,进行模 型训练,然后在预测标签的时候再把标签索引转化成原有的字符标签。当然, 阅读全文
摘要:
在机器学习处理过程中,为了方便相关算法的实现,经常需要把标签数据(一般是字符串)转化成整数 索引,或是在计算结束后将整数索引还原为相应的标签。 StringIndexer转换器可以把一列类别型的特征(或标签)进行编码,使其数值化,索引的 范围从0开始,该过程可以使得相应的特征索引化,使得某些无法接 阅读全文