常见机器学习算法及其属性表格

种类 模型 相对准确星 过拟合风险 所需测试数据量 可解释性 超参数调优 复杂度 实施时间 计算成本
基于概率的贝叶斯 贝叶斯网络 2 2 2 2 3 3 2 3
朴素贝叶斯 2 2 2 2 2 3 2 3
基于信息的决策树 决策树 2 3 2 3 2 2 1 2
随机森林 3 2 1 3 3 2 1 2
梯度提升 3 3 2 1 4 4 2 3
基于误差的线性方法 线性回归 1 3 2 3 1 2 1 2
逻辑回归 1 3 2 3 1 2 1 2
局部线性回归 2 1 3 3 2 2 1 2
基于相似度的实例方法 K最近邻 2 3 2 2 2 3 1 1
自组织映射 2 3 2 2 3 3 1 1
支持向量 线性支持向量机 3 3 3 1 3 2 2 2
非线性(核)支持向量机 3 3 3 1 3 3 3 3
基于神经网络的方法 人工神经网络 3 3 2 1 3 3 3 3
深度学习(神经网络) 4 1 4 1 4 4 4 4
    评估标签
  1. Comparative Accuracy(相对准确性):指的是不同机器学习模型或算法在解决同一问题时的性能比较。它用于评估模型的预测准确性,以确定哪个模型在给定任务上表现更好。

  2. Overfitting Risk(过拟合风险):过拟合是指机器学习模型在训练数据上表现良好,但在新数据上表现较差的现象。过拟合风险是指模型发生过拟合的可能性或潜在风险。过拟合可能会导致模型对噪声或不相关的特征过度拟合,从而降低其泛化能力。

  3. Samples needed(所需样本):指在训练机器学习模型时所需的样本数量。样本数量的选择可能受到多个因素的影响,如问题的复杂性、可用数据的数量和质量等。

  4. Explainability(可解释性):指机器学习模型的结果能否被理解和解释的程度。可解释性是指模型产生的预测或决策背后的原因和逻辑是否能够被人理解和解释。在某些应用领域,可解释性是一个重要的考虑因素,特别是需要对模型的预测结果进行解释或验证的情况。

  5. Hyper-parameter Tuning(超参数调优):在机器学习算法中,超参数是在训练模型之前设置的参数,而不是通过训练过程学习的参数。超参数调优是指通过尝试不同的超参数组合来找到最佳的模型性能。这通常涉及到在给定超参数空间中进行搜索和评估不同超参数组合的模型性能。

  6. Complexity(复杂度):指机器学习模型的复杂程度或复杂度。复杂度可以有不同的定义,例如模型的结构复杂度、参数的数量或计算复杂度等。模型的复杂度通常会影响模型的训练时间、计算资源需求以及泛化能力。

  7. Implementation Time(实施时间):指实施机器学习算法或模型所需的时间。这包括数据准备、特征工程、模型训练、调优和评估等过程。实施时间可以受到多个因素的影响,如数据集的大小、特征的复杂性、选择的算法和可用的计算资源等。

  8. Computation Cost(计算成本):指训练和使用机器学习模型所需的计算资源和成本。计算成本可以包括训练模型所需的时间、计算设备的需求(如CPU、GPU、TPU等)、能源消耗以及相关的硬件和软件成本等。计算成本是在实施机器学习解决方案时需要考虑的一个重要因素。

这些名词代表了不同类型的机器学习算法和方法,它们在解决问题时采用不同的原理和技术。以下是对这些名词的解释和含义:

1. Probability-based (Bayesian)(基于概率的贝叶斯):基于概率的贝叶斯方法是一种统计推断方法,它使用贝叶斯定理来计算给定观测数据的后验概率。这种方法通过将先验知识和观测数据结合起来,进行概率推断和决策。

2. Information based (Tree)(基于信息的决策树):基于信息的决策树是一种基于信息增益或信息增益率等准则构建决策树模型的方法。它通过将数据集划分为不同的子集,并根据特征的信息增益选择最佳划分来进行决策。

3. Error based (Linear)(基于误差的线性方法):基于误差的线性方法是一类使用误差函数(如均方误差)来拟合线性模型的方法。这些方法通过最小化模型预测与实际观测之间的误差来估计模型参数。

4. Similarity-based (Instance)(基于相似度的实例方法):基于相似度的实例方法(也称为实例学习或懒惰学习)使用训练数据中的实例或样本来进行预测。它通过比较新实例与训练集中实例的相似度来进行分类或回归预测。

5. Support Vectors(支持向量):支持向量是支持向量机(SVM)算法中的关键概念。支持向量机是一种用于分类和回归分析的监督学习方法。支持向量是训练数据中与决策边界最靠近的样本点,它们在模型的训练和预测中起到重要作用。

6. Neural Network-based(基于神经网络的方法):基于神经网络的方法使用人工神经网络(ANN)来建模和解决问题。神经网络是由多个神经元组成的网络结构,它通过学习输入和输出之间的复杂非线性关系来进行预测和决策。

这些不同类型的方法适用于不同的问题和数据类型。选择适当的方法取决于问题的特征、可用数据和预测需求等因素。

 

这些算法是机器学习和数据分析中常见的方法和模型,下面对它们进行解释:

1. Bayesian Network(贝叶斯网络):贝叶斯网络是一种概率图模型,用于表示变量之间的依赖关系。它使用有向无环图来表示变量之间的条件依赖关系,并利用贝叶斯定理进行推理和概率推断。

2. Naive Bayes(朴素贝叶斯):朴素贝叶斯是一种简单且高效的分类算法,基于贝叶斯定理和特征之间的独立性假设。它假设所有特征之间是相互独立的,并使用贝叶斯定理来计算给定特征条件下的类别概率,从而进行分类。

3. Decision Tree(决策树):决策树是一种基于树结构的分类和回归模型。它通过对特征进行逐步划分,构建一个树形结构来进行决策和预测。每个内部节点表示一个特征,每个叶节点表示一个类别或一个数值预测。

4. Random Forest(随机森林):随机森林是一种集成学习方法,由多个决策树组成。它通过随机选择特征和样本子集来构建多个决策树,并通过投票或平均预测结果来进行分类或回归预测。

5. Gradient Boosting(梯度提升):梯度提升是一种集成学习方法,通过迭代地训练一系列弱学习器来构建一个强学习器。在每一轮迭代中,它通过梯度下降优化损失函数,逐步提升模型的预测性能。

6. Linear Regression(线性回归):线性回归是一种用于建立线性关系模型的回归分析方法。它通过拟合一个线性方程来预测数值型目标变量,寻找最佳拟合直线来描述自变量与因变量之间的线性关系。

7. Logistic Regression(逻辑回归):逻辑回归是一种用于建立分类模型的回归分析方法。它使用逻辑函数(如sigmoid函数)将线性回归模型的输出映射到概率值,并进行分类预测。

8. Partial Linear Regression(局部线性回归):局部线性回归是一种回归分析方法,用于建立自变量和因变量之间的非线性关系模型。它通过在每个数据点周围拟合线性模型,并考虑到局部数据的权重来进行预测。

9. K nearest neighbour(K最近邻):K最近邻是一种基于实例的学习方法,用于分类和回归。它通过在训练集中找到与新实例最接近的K个邻居,并基于邻居的标签或值进行预测。

10. Self-Organising Maps(自组织映射):自组织映射是一种无监督学习方法,用于数据聚类和可视化。它通过将输入数据映射到一个拓扑有序的二维或多维网格上,保持相似数据点的邻近性。

11. Linear SVM(线性支持向量机):线性支持向量机是一种用于分类和回归的监督学习方法。它通过在特征空间中找到一个最优的超平面来进行分类,使得不同类别的样本点尽可能地分开。

12. Non-linear (Kernel) SVM(非线性(核)支持向量机):非线性支持向量机是一种扩展的支持向量机方法,用于处理非线性分类问题。它通过使用核函数将输入特征映射到高维特征空间中,从而在高维空间中找到一个线性可分的超平面来进行分类。

13. Artificial Neural Network(人工神经网络):人工神经网络是一种模仿生物神经网络结构和功能的计算模型。它由多个人工神经元组成的网络层次结构,通过学习权重和激活函数来进行模式识别、分类、回归等任务。

14. Deep Learning (Neural Network)(深度学习(神经网络)):深度学习是一种基于深层神经网络的机器学习方法。它利用多个隐层来学习和提取数据的高级特征表示,通过反向传播算法进行训练,并在各种任务中取得了重要的突破,如图像识别、语音识别和自然语言处理。

 

 摘录自

Reel, Parminder S., et al. "Using machine learning approaches for multi-omics data analysis: A review." Biotechnology advances 49 (2021): 107739.

翻译byChatGPT3.5tubro

posted @ 2024-03-28 15:17  liujunxi  阅读(39)  评论(0编辑  收藏  举报