随笔档案「2018年8月17日」：特征选取--卡方选择器 ... - Bean_zheng

2018年8月17日

摘要：特征选择（Feature Selection）指的是在特征向量中选择出那些“优秀”的特征，组成新的、更“精简”的特征向量的过程。它在高维数据分析中十分常用，可以剔除掉“冗余”和“无关”的特征，提升学习器的性能。特征选择方法和分类方法一样，也主要分为有监督（Supervised）和无监督（Unsup 阅读全文

posted @ 2018-08-17 12:00 Bean_zheng 阅读(967) 评论(0) 推荐(0)

特征抽取--标签与索引的转化: VectorIndexer

摘要：之前介绍的StringIndexer是针对单个类别型特征进行转换，倘若所有特征都已经被组织在一个向量中，又想对其中某些单个分量进行处理时，Spark ML提供了VectorIndexer类来解决向量数据集中的类别性特征转换。通过为其提供maxCategories超参数，它可以自动识别哪些特征是类阅读全文

posted @ 2018-08-17 11:53 Bean_zheng 阅读(1284) 评论(0) 推荐(0)

特征抽取--标签与索引的转化: OneHotEncoder

摘要：独热编码（One-Hot Encoding）是指把一列类别性特征（或称名词性特征，nominal/categorical features）映射成一系列的二元连续特征的过程，原有的类别性特征有几种可能取值，这一特征就会被映射成几个二元连续特征，每一个特征代表一种取值，若该样本表现出该特征，则阅读全文

posted @ 2018-08-17 11:46 Bean_zheng 阅读(2443) 评论(0) 推荐(0)

特征抽取--标签与索引的转化: IndexToString

摘要：与StringIndexer相对应，IndexToString的作用是把标签索引的一列重新映射回原有的字符型标签。其主要使用场景一般都是和StringIndexer配合，先用StringIndexer将标签转化成标签索引，进行模型训练，然后在预测标签的时候再把标签索引转化成原有的字符标签。当然，阅读全文

posted @ 2018-08-17 11:33 Bean_zheng 阅读(916) 评论(0) 推荐(0)

特征抽取--标签与索引的转化: StringIndexer

摘要：在机器学习处理过程中，为了方便相关算法的实现，经常需要把标签数据（一般是字符串）转化成整数索引，或是在计算结束后将整数索引还原为相应的标签。 StringIndexer转换器可以把一列类别型的特征（或标签）进行编码，使其数值化，索引的范围从0开始，该过程可以使得相应的特征索引化，使得某些无法接阅读全文

posted @ 2018-08-17 11:26 Bean_zheng 阅读(2940) 评论(0) 推荐(1)

Bean_zheng

公告