特征选择综述

论文来源:A Comprehensive Survey on the Process, Methods, Evaluation, and Challenges of Feature Selection

基本知识

处理问题:对于各种机器学习、深度学习和数据科学方法来说,一些特征可能是多余的或不相关的。有些可能会误导聚类结果,从而降低模型的质量。

特征选择通过剔除不相关和冗余的特征来降低特征维数和计算复杂度。这些特征集通过特征选择过程进行减少,以提高所有类型的分类、回归、聚类模型的性能。

四个阶段:自己生成或搜索、子集评估、停止准则、结果评估。

 分类

 特征子集搜索分类

搜索方向分类:

Forward:前向搜索是从一个空集合开始,新特征在每一次迭代中递归的添加。

Backward:后向消除搜索是从一组完整的特征开始,逐个删除它们,直到获得所需要的特征集。

Compound:复合式搜索是前向后向的混合型,允许特征之间发现新的相互作用。

Random:特征子集是通过一个随即搜索过程来构建的,这个过程包括重复的添加和删除特征。

搜索策略分类:

Exponential algorithms指数算法;Sequential algorithms顺序算法;Random search algorithms随机算法。

  • Exponential algorithms  指数算法

exhaustive algorithms 穷举算法

穷举搜索是指在所有可能的特征组合中寻找最佳的特征子集,以最大化模型的性能。这个过程非常直观:对每个可能的组合进行评估并选择性能最好的组合。

穷举搜索的计算复杂度很高,尤其当输入特征的数量增大时,可能的组合数量呈指数增长。因此,这类问题被归为NP-难问题,意味着当特征数量较多时,用这种方法找到最优解在计算上非常困难甚至不可行。

 complete search 完全搜索

完全搜索是一种确保找到问题最优解的搜索策略,它不一定需要遍历整个搜索空间。完全搜索使用各种方法和策略,在一定条件下保证找到最优解,但可以通过启发式手段来减少不必要的计算。

  •  Sequential algorithms  顺序算法

顺序算法用于依次添加或删除特征。这种算法往往会陷入局部最小值。

Sequential forward selection(sfs) 顺序正向选择

顺序正向选择从一个空的特征集合开始,在每一步中,SFS 通过评估每个特征,找到当前最能提高模型性能的特征并将其加入集合。这个过程持续进行,直到模型的性能不再显著提升或者达到了预定的停止条件。

SFS 是一种贪婪算法,每次选择的特征都是当前步骤中对模型性能提升最大的特征。

Sequential backward selection(sfs) 顺序反向选择

它的目标是逐步减少特征集的维度,同时尽量保持模型的性能。与顺序正向选择(SFS)不同,SBS 是从完整的特征集开始,每次移除一个特征,直到达到预定的特征子集大小。

在每个步骤中删除对模型性能影响最小的特征,即每次移除一个特征后,模型的性能下降最小。这个过程会持续进行,直到剩下的特征数达到预定的 K 个为止(K 通常远小于初始的特征数 N)。

停止条件:当特征集的大小达到预定的 K 个特征时,或者删除任何进一步的特征会显著降低模型性能时,停止该过程。

Sequential forward floating selection(sffs) 顺序前向浮动选择

是一种改进的特征选择算法,它结合了顺序前向选择(SFS)和顺序向后选择(SBS)的优点,通过动态调整前向和后退步骤,使得特征选择过程更加灵活和高效。SFFS 的设计旨在克服贪婪算法的局限性,避免遗漏重要的特征组合。

在每一个前向选择步骤之后,SFFS 会执行一个或多个后退步骤,检查是否可以通过删除某些特征进一步提高模型的性能。这与标准的顺序前向选择(SFS)不同,SFFS 可以动态地回溯,并在模型性能允许的情况下移除特征。

工作过程:

  • 初始化:从一个空的特征集合开始,逐步向前选择特征(类似于 SFS)。
  • 前向选择:在每一步前向选择中,找到一个能使模型性能最优的特征并将其加入特征集。
  • 后退步骤:在完成每个前向步骤之后,SFFS 会进行后退操作,检查当前特征集中的某些特征是否可以被删除而不显著影响模型性能。如果删除某个特征后性能提高或保持不变,则该特征会被移除。
  • 反复执行:这个过程会持续进行,前向步骤和后退步骤交替进行,直到特征集不再发生显著变化,或者性能达到了最优。

Sequential backward floating selection(sfs) 顺序后向浮动选择

从整个特征集开始。只要目标函数有所改善,SFBS 在每次向后步骤之后都会进行向前步骤。这意味着在移除特征后,如果发现某些特征的删除并未显著影响性能,或者模型性能得到了提升,算法还会尝试通过加入其他特征来进一步优化结果。这种方法使得算法能够动态调整特征集,以找到最优的特征子集。

Bidirectional Search 双向搜索

它通过从两个方向(起点和目标点)同时进行搜索来提高效率。

  • 搜索图的结构

    • BDS 将单一的搜索图替换为两个较小的子图:一个从起始节点(起点)出发,另一个从目标节点(终点)出发。这两个子图在搜索过程中并行运行。
  • 同时搜索

    • 当算法开始时,它同时在两个方向上进行搜索。一个方向的搜索(通常是前向搜索)试图找到从起点到目标的路径,而另一个方向的搜索(通常是后向搜索)则试图从目标反向找到起点。
  • 交集检测

    • 搜索的终止条件是当两个子图相遇,即两者找到相同的特征子集或者路径时。这种交集检测可以显著减少需要检查的状态数量,从而加快搜索过程。

在特征选择中,BDS 将顺序前向选择(SFS)和顺序后向选择(SBS)结合使用。具体步骤如下:

  1. 初始化

    • 从一个空特征集开始(用于 SFS),同时从包含所有特征的全集开始(用于 SBS)。
  2. 前向选择(SFS)

    • 从空特征集开始,逐步添加特征,每次选择能显著提高模型性能的特征。
  3. 后向选择(SBS)

    • 从全集开始,逐步删除特征,每次选择能最小化模型性能下降的特征。
  4. 相交检测

    • 在每一步中,BDS 会检查 SFS 和 SBS 是否找到了相同的特征子集。如果两者的选择相同,则搜索结束,得出最终的特征子集。
  • Random search algorithms随机算法

随机搜索算法被用于逃离局部最小值,这些算法被称为启发式搜索算法。它们在搜索过程中引入随机性。

元启发式算法(Metaheuristic Algorithms)

  • 基于评估的算法(Evaluation based)

    • 这些算法基于自然进化,开始时生成一组随机产生的解决方案。通过结合最佳解决方案,产生新的个体,使用变异、交叉和最优解来创造新个体。一些例子包括差分搜索、随机分形搜索算法、回溯搜索和协同成纤维细胞优化。
  • 基于群体智能的算法(Swarm intelligence-based algorithms)

    • 这些算法基于昆虫、动物、鱼类和鸟类的社会行为。粒子群优化(PSO)是一个突出的例子,由Kennedy和Eberhart发明。PSO基于鸟群在搜索空间中飞行寻找理想位置的行为。
  • 基于物理的算法(Physics based algorithms)

    • 这些算法受到物理规律的启发。基于搜索的算法有引力搜索、带电系统搜索、基于银河的搜索等;优化算法有电磁优化、螺旋优化、曲面空间优化、射线优化、气体布朗运动、运动气体分子、碰撞体、蒸汽化、热交换优化等。此外,黑洞算法、水循环算法、思维爆炸算法、正弦余弦算法和电搜索算法也是物理基算法的例子。
  • 基于人类行为的方法(Human behavior based algorithms)

    • 这些方法基于人类独特的活动方式,这些方式影响其整体成功。例子包括联赛冠军算法、交换市场算法、社会情感算法、大脑风暴优化算法、Jaya算法和基于知识共享的算法。

Random Generation Plus Sequential Selection 随机生成加顺序选择

随机生成加顺序选择(Random Generation Plus Sequential Selection, RGSS)是一种特征选择方法,它首先随机生成一个特征子集,然后对该子集应用顺序前向选择(SFS)和顺序后向选择(SBS)算法,以突破局部最优解的限制。

Simulated Annealing  模拟退火

模拟退火是一种优化算法,首先随机选择一组特征作为模拟退火过程的起点。可以指定迭代次数,以获得模型的预测性能。随后,从现有特征集中随机选择并包括或排除一小部分特征(通常是 1-5 个特征),并确定新特征组的预测性能。

  • 性能提升:如果新的特征组提高了模型的效率,则该特征组会被保留。
  • 性能下降:如果新特征组的性能低于之前的特征组,则使用一个接受概率公式来计算接受新特征组的可能性。接受概率是时间和性能变化的函数,并有一个控制特征扰动速度的参数 c。

模拟退火算法由于引入随机性,可以在搜索全局最优解时避免陷入局部最优解。它允许以概率的方式进行状态变动,从而在优化过程中处理误差率。

 区别:

  • RGSS

    • 采用随机搜索和顺序选择相结合的策略。算法主要通过随机选择特征的方式进入解空间,然后使用贪婪方法(SFS 和 SBS)进一步优化选择的特征集。
  • 模拟退火

    • 采用概率性搜索策略,允许算法在搜索过程中接受较差的解,以提供多样性和探索性。这种方法模拟了物质冷却过程中的状态变化,具有较强的全局优化能力。

Random Hill Climbing 随机爬山算法

该算法从一组输入和适当的启发式函数开始,使用一个适当的启发式函数来评估当前解的质量,目标是为问题提供一个较好的解决方案。随机爬山算法采用贪婪策略,在状态空间的每个位置上,搜索仅朝着优化目标函数成本的方向进行,希望最终找到最佳解。

Memetic Algorithm 记忆算法

记忆算法是一种标准遗传算法的扩展,具有以下特点:

  • 局部搜索策略:为了减少过早收敛的可能性,记忆算法在搜索过程中引入了局部搜索策略。这意味着在遗传操作(如交叉)之后,还会对候选解进行局部优化。

  • 交叉操作:交叉操作是 MA 的关键组成部分。通过结合适应性较高的个体,可以指导搜索方向。

  • 应用领域:记忆算法在进化计算领域得到了迅速发展,广泛应用于多种优化问题。

Las Vegas Algorithm 拉斯维加斯算法

拉斯维加斯算法是一种通过概率决策快速获得正确答案的算法:

  • 随机性:这种算法使用随机性来引导搜索过程,即使在做出较差选择的情况下,也能确保找到正确的答案。

  • 平衡时间:拉斯维加斯算法通过平衡在不同情况上花费的时间,缓解了启发式搜索方法在高阶相关数据集上易受影响的问题。

Differential Evolution 差分进化

差分进化是一种用于生成实值多峰函数的进化算法,具有以下特点:

  • 种群基础:DE 是一种基于种群的元启发式算法,通过进化过程逐步改进提出的解决方案。

  • 参数存储:算法中的参数以浮点变量的形式存储,当执行重要的数学操作时,这些变量会发生变化。

  • 变异过程:在变异过程中,修改后的最佳参数值通过交叉过程合并到实际种群向量中。

  • 少量假设:DE 对于基础优化问题的假设较少,可以快速探索庞大的设计空间。

  • 控制参数:标准 DE 具有三个需要调整的控制参数,样本向量生成方案和控制参数选择显著影响 DE 在特定优化任务中的有效性。

  • 实施挑战:选择合适的控制参数并不总是容易,尤其在实现过程中可能耗时且困难。

 Particle Swarm Optimization 粒子群优化算法

是一种基于群体智能的元启发式算法,PSO 模仿的是自然界中群体行为(如鸟群、鱼群)中个体如何通过合作和信息共享来找到最优解决方案的过程。

  • 粒子(Particles)和群体(Swarm)

    • PSO 算法将每一个潜在的解决方案称为“粒子”,多个粒子构成一个“群体”。每个粒子代表搜索空间中的一个点,并且都有自己的速度和位置。
  • 初始化

    • PSO 会在搜索空间中初始化一群粒子,每个粒子的初始位置和速度都是随机的。
  • 局部最优和全局最优

    • 每个粒子会记录自己经历过的最佳位置(即“个体最优解”),同时,整个群体还会共享当前所有粒子中的最佳位置(即“全局最优解”)。
  • 粒子的运动

    • 每个粒子根据三个因素更新其位置和速度:
      1. 当前速度:粒子当前的速度决定了其下一步移动的方向和距离。
      2. 个体最优解:粒子朝自己找到的最优解方向移动,试图改善自己的解。
      3. 全局最优解:粒子也朝着群体中所有粒子找到的全局最优解方向移动。

    粒子的运动是一个平衡过程,通过适应性的调整使得它们既能探索新的区域,也能朝最优解逼近。

  • 停止条件

    • 当达到预定的迭代次数或者找到足够好的解时,算法终止。

Genetic Algorithm  遗传算法

是一种启发式搜索方法,常用于解决涉及搜索和优化的复杂问题。遗传算法模仿了生物界的自然选择过程,属于进化算法的一个分支,利用遗传和自然选择的原理寻找问题的最优解。

  • 初始化

    • 创建一个初始种群,其中每一个“个体”都表示一个潜在的解决方案。个体通常使用二进制编码表示,每个个体的长度和编码方式由问题决定。
  • 适应度评估

    • 为每个个体计算适应度(fitness),即衡量每个个体解决问题的效果。适应度函数越高的个体表示当前解的质量越高。
  • 选择

    • 根据适应度函数的结果选择个体,以产生下一代。通常,适应度高的个体更有可能被选择用于繁殖,增加更优解在种群中的比例。
  • 交叉(Crossover)

    • 将两个“父代”个体的基因进行组合生成“子代”,模拟生物遗传的交叉过程。交叉操作可以将每个父代个体的优势特征传递到下一代,从而提高种群的整体适应度。
  • 变异(Mutation)

    • 对部分基因进行随机修改,以保持种群的多样性并避免局部最优解。变异帮助种群探索新的搜索空间区域,提高找到全局最优解的可能性。
  • 迭代

    • 生成新的种群,并重复适应度评估、选择、交叉和变异步骤,直到达到预设的停止条件(如迭代次数、目标适应度等)。

 特征评价标准分类

特征子集评估标准是一种用于从特征集合中选择出最相关特征的方法。特征选择的核心是通过各种评估标准找到对模型预测性能最重要的特征。特征选择的四种主要评估标准包括过滤法(Filter)包裹法(Wrapper)嵌入法(Embedded)以及混合法(Hybrid)

  • 过滤法(Filter)

过滤法通过统计或评分标准对每个特征进行独立评估,而不依赖于任何特定的学习算法。它根据特征与目标变量的相关性进行排序,然后选择得分最高的特征子集。

互信息(Mutual Information, MI)

互信息(MI)是一种常用于特征选择中的统计技术,用来衡量两个变量之间的依赖关系。互信息可以理解为通过一个随机变量对另一个随机变量所获得的“信息量”的度量。

 其中,p(a,b)是变量A和B的联合概率分布,p(a)和p(b)分别是变量A和B的边缘分布。这一公式主要用于计算离散随机变量A和B之间的互信息。

 对于连续随机变量,互信息的计算则需要通过二重积分

皮尔逊相关系数(Pearson's Correlation, PC)

皮尔逊相关系数是一种基于过滤的方法,主要用于检测两个连续变量 XY之间的线性关系。其值范围从 -1 到 1,用来衡量两个变量之间的相关程度。公式如下:

信息增益(Information Gain, IG)

 增益率(Gain Ratio)

增益率是一种用于改进信息增益偏向于高多样性特征的问题的指标。它在数据均匀分布时具有较大的影响力,而当所有数据都集中在某个特定属性的分支时,增益率则会较低。

 内在值(Intrinsic Value)是通过属性 xxx 的可能取值数量∣S|和实际取值数量 ∣Si∣的对数关系计算得出:

拉普拉斯评分(Laplacian Score, LS)

拉普拉斯评分是一种著名的无监督特征选择方法,基于位置保持的原理。它评估特征的能力,判断是否能够在相似空间中维持数据点的几何结构。一个好的特征应该能够保留数据的局部几何关系。

 D 是对角矩阵,L 是拉普拉斯矩阵,计算为 L=D−S

  • 包裹法(Wrapper)

包裹法通过与特定的机器学习算法结合,评估不同特征子集的模型性能。通常使用交叉验证来验证模型性能,并根据性能评估选择最佳特征子集。常用的性能评估指标包括分类错误率、精度、召回率、F1 分数等。特征子集的性能越好,表示这个子集对模型预测效果的贡献越大。

Wrapper 方法通过特征子集对模型性能的影响来进行选择,通常以分类错误率作为评估指标。特征子集的错误率越低,结果越好。然而,由于特征组合数量庞大,全面搜索所有特征子集是 NP 难问题,且容易导致过拟合。Wrapper 方法通常采用一些启发式的搜索策略来减少搜索空间。

贪心搜索策略

Wrapper 方法使用了一些贪心搜索策略来减少搜索空间

  • 顺序前向选择(Sequential Forward Selection, SFS):从空特征集开始,每次加入最优特征,直到达到理想的性能。
  • 顺序后向消除(Sequential Backward Elimination, SBE):从完整特征集开始,每次移除对模型影响最小的特征。
  • 最佳优先(Best-First):优先探索那些认为最可能带来好结果的特征组合。
  • 分支定界(Branch-and-Bound):通过搜索剪枝减少不必要的计算。
  • 模拟退火(Simulated Annealing)遗传算法(Genetic Algorithms):属于启发式搜索方法,适用于更复杂的特征空间。

递归特征消除(RFE)

递归特征消除(RFE)是一种广泛使用的特征选择算法。它基于随机森林分类模型,通过递归排序特征的重要性,依次移除不相关特征,最终选出最相关的特征。RFE 的两个主要配置参数是选择的特征数量和辅助特征选择的算法。尽管这些超参数可以调整,但它们对方法性能的影响并不显著。

  • 嵌入法(Embedded)

将特征选择的过程嵌入到学习算法中。这种方法与包裹法(Wrapper)和过滤法(Filter)不同,因为它在训练模型的同时进行特征选择。具体来说,嵌入法通过引入稀疏性诱导的正则化或先验知识到学习算法的目标函数中,自动选择特征并且对其进行惩罚。如决策树模型中的特征重要性或LASSO回归中的特征稀疏化。

嵌入法的特点:

  1. 结合特征选择与模型训练:嵌入法在模型训练的过程中进行特征选择,避免了重复的计算,提高了效率。
  2. 使用正则化:许多嵌入法利用L1或L2正则化来抑制不必要的特征。例如,LASSO回归通过L1正则化将一些特征的权重压缩到零,从而实现特征选择。
  3. 效果较优:虽然嵌入法的计算量较小,但它们通常不如包裹法的结果那么精确。因为包裹法专门针对特征选择进行优化,而嵌入法是通过优化模型的方式间接进行选择。
  4. 减少过拟合:通过惩罚不相关的特征,嵌入法能够提高模型的可解释性并减少过拟合的风险。

LASSO(Least Absolute Shrinkage and Selection Operator)

LASSO是一种回归分析方法,能够同时进行变量选择和正则化。通过限制模型参数绝对值之和,LASSO可以将一些不重要的特征的系数缩减为零,从而在特征选择阶段排除这些变量。它特别适合特征数量多于样本数量的情况,并且在减少过拟合的同时提高模型的预测能力。

Ridge回归

与LASSO不同,Ridge回归使用L2正则化,通过限制模型参数的平方和来减少过拟合。它不会将特征的系数压缩到零,因此所有特征都被保留,适用于所有特征都可能相关的情况。

  • 混合法(Hybrid)

混合法结合了过滤法和包裹法的优点。通常,首先通过过滤法快速筛选出初步特征集合,然后再通过包裹法进一步优化特征子集。

  • 结合不同评估标准:混合方法利用包裹法和过滤法在特征选择过程中的不同评估标准,在不同阶段进行特征选择,以便更全面地评估特征的质量。

  • 平衡效率和有效性:混合方法的目标是通过结合过滤法和包裹法的优点,达到在计算效率(时间和资源消耗)和有效性(所选择特征在实际任务中的表现)之间的平衡。

混合方法通常包括以下几个步骤:

  • 初步筛选:使用过滤法进行快速特征评估,以排除那些与目标变量相关性较低的特征。
  • 精细选择:在过滤法得到的特征子集上,应用包裹法进一步评估特征的效果,最终选择出对模型性能提升最显著的特征。

基于学习方法的分类

基于学习方法的特征选择(Feature Selection Based on Learning Methods) 是机器学习中的一个重要概念,涉及如何选择最相关的特征以提高模型的性能和效率。根据类别信息的可用性,特征选择策略通常分为三种学习方法:监督学习、无监督学习和半监督学习。

  • 监督学习方法(Supervised Learning Methods)

常用的监督特征选择方法

  1. Fisher Score:用于评估特征对类的区分能力,主要用于二分类问题。Fisher Score 值越大,特征对分类的贡献越大。

  2. Hilbert-Schmidt Independence Criterion (HSIC):在重生成核Hilbert空间(RKHS)中提出的一种独立性标准,用于检测两个随机变量之间的独立性。HSIC能够捕捉非线性关系,而无需依赖广义特征值问题或正则化参数。

  3. Fisher Criterion:与 Fisher Score 类似,但更关注于分类器的性能,通过评估类间距离与类内距离的比率来选择特征。

  4. Pearson Correlation Coefficient:衡量两个特征之间的线性关系,通过计算相关系数来选择与目标变量高度相关的特征。

  5. Trace Ratio Criterion:通过最小化类内散度和最大化类间散度来选择特征,通常用于多类分类问题。

  6. 互信息(Mutual Information):衡量特征与目标变量之间的依赖关系,互信息越大,表示特征与目标变量之间的相关性越强。

Hilbert-Schmidt Independence Criterion (HSIC)

HSIC是一种基于重生成核Hilbert空间的独立性标准,它可以用来检测两个随机变量之间的独立性。根据HSIC的定义,如果任意有界的连续函数在这两个随机变量上是无相关的,则这两个随机变量是独立的。HSIC的一个优点是它能够有效检测非线性关系,并且不需要求解广义特征值问题或依赖于正则化参数,这使得它在独立成分分析、排序/匹配、监督字典学习和多视图学习等多个应用中得到了广泛应用。

  • 无监督学习方法(Unsupervised Learning Methods)

UFS Wrapper 方法

Wrapper 方法使用精确的聚类算法结果来评估特征子集。这些方法的关键在于通过聚类算法的结果来发现特征子集,从而提高选择的质量。

  • 顺序方法(Sequential Methods):在这些方法中,特征是按顺序添加或移除的。顺序方法相对简单且易于实现,能够有效地找到合适的特征子集。

  • 生物启发方法(Bio-inspired Methods):这些方法旨在通过引入随机性来避免局部最优,通常借鉴生物界中的适应性机制。这类方法可能采用遗传算法、蚁群优化等技术。

  • 迭代方法(Iterative Methods):这些方法将UFS问题重新定义为评估问题,从而减少组合搜索的需要。迭代方法通常具有较好的收敛性和效率。

UFS Hybrid 方法

混合方法旨在结合过滤器和包裹方法的优点,以实现计算效率的适当平衡。这些方法通常展示了在使用所选特征时与特定任务相关的生产力。混合方法包括一个过滤框架,通过基于数据固有属性的测量对特征进行排序或选择。

  • 半监督学习方法(Semi-Supervised Learning Methods)

半监督学习(Semi-supervised learning)结合了一小部分标记数据和大量无标签数据进行学习。这种方法在特征选择中通常分为两组,主要从两个不同的角度进行深入探索。特征选择的分类基于其与学习过程的合作,以及半监督学习算法的相似性。

半监督过滤方法(Semi-Supervised Filter Method)

半监督过滤特征选择方法通过分析标记和未标记数据的内在特征来学习任务的过程。这些方法试图利用有限的标记数据来改进特征选择的效果。

  • 基于谱图理论与聚类假设:Zhao 和 Liu 提出了基于谱图理论和聚类假设的半监督特征选择方法。该方法通过聚类指示器寻找与标签信息一致的聚类。开始时,生成一个邻域图,类似于拉普拉斯分数产生的图形。然后,计算每个特征向量的聚类指示器,并评估其重要性,判断两个因素:指示器的聚类结构是否良好,以及聚类结构是否与标签信息一致。

  • 基于Fisher准则:该方法使用Fisher准则选择具有最佳判别和上下文能力的特征,利用标记和未标记数据来确定局部结构和分布。其目标是在使用标记数据区分不同分类的同时,保持未标记数据的局部结构。Yang等人提出了一种基于Fisher分数的结构,结合了局部结构保持准则和变体策略。

  • 基于拉普拉斯分数:这些方法依赖拉普拉斯准则和信息输出进行特征选择,通常生成邻域图并分析特征,以保持数据的局部结构。这些方法被称为图基方法,因为它们创建了两个图,分别来源于有监督和无监督数据。

  • 基于成对约束:该方法评估特征的重要性,依据它们的约束和局部保持能力。这些方法创建两个图,通过用户定义的成对约束来评估相关特征,并确保它们遵循数据的局部结构。

  • 基于稀疏模型:稀疏特征过程选择最稀疏和最具判别力的特征,常见的稀疏模型是L1范数(Lasso)。不过,L1范数模型并不总是能有效选择适合的稀疏特征。近期的研究表明,考虑特征之间的关联性,结合所有数据样本的特征选择会更有效。

半监督包裹方法(Semi-Supervised Wrapper Method)

半监督包裹特征选择方法利用标记数据预测未标记数据的标签,并检验所选特征子集的有效性。这种方法可以基于单个学习器或集成学习模型。

  • 基于单个学习器:使用单个学习器选择特征子集,该学习器训练一个分类器以预测未标记数据的标签。随后,从预测标签的未标记数据子集中随机选择,并与标记数据合并,形成新的训练集。

  • 基于集成学习:在这种方法中,半监督特征选择通过置信度度量选择预测的未标记数据。置信度度量是判断半监督特征选择成功与否的关键因素。不同的分类器被用于不同的训练集或特征集,采用重新采样方法(如袋装法)和随机子空间方法(RSM)生成不同的训练集。

半监督嵌入方法(Semi-Supervised Embedded Method)

半监督嵌入方法在训练过程中利用标记和未标记数据进行特征选择。这些方法分为两类:基于稀疏模型和图拉普拉斯的特征选择方法,以及基于支持向量机的方法。

  • 基于稀疏模型和图拉普拉斯:这一类方法使用稀疏模型和图基半监督学习,同时考虑标记和未标记数据。最著名的图拉普拉斯方法是流形正则化,它扩展了多种算法到半监督方法中。

  • 基于支持向量机:支持向量机方法通过优化类之间的分类边界,同时利用局部数据结构选择特征。多种策略可以用于SVM模型,如流形正则化、递归特征移除、L1范数与L2范数的结合等。

 

posted on   gjwqz  阅读(230)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示