随笔分类 - 机器学习
分享机器学习数学基础知识、经典机器学习算法总结和机器学习经典面试题总结知识。
摘要:
交叉验证是机器学习当中的概念,一般深度学习不会使用交叉验证方法,原因是深度学习的数据集一般都很大。但是也有例外,Kaggle 的一些医疗类比赛,训练集一般只有几千张,由于训练数据很少,用来作为验证集的数据会非常少,因此训练的模型在验证集上精度可能会有很大波动,这直接取决于我们所选择的验证集和训练集划分方式,也就是说,验证集的划分方式可能会造成验证集精度存在较大方差,从而无法对模型进行有效评估,同时也无法进行有效的超参数调整(batch 设置多少模型最佳收敛)。
阅读全文

摘要:
深度学习是机器学习的一个特定分支。我们要想充分理解深度学习,必须对机器学习的基本原理有深刻的理解。
大部分机器学习算法都有超参数(必须在学习算法外手动设定)。机器学习本质上属于应用统计学,其更加强调使用计算机对复杂函数进行统计估计,而较少强调围绕这些函数证明置信区间;因此我们会探讨两种统计学的主要方法: 频率派估计和贝叶斯推断。同时,大部分机器学习算法又可以分成监督学习和无监督学习两类;本文会介绍这两类算法定义,并给出每个类别中一些算法示例。
阅读全文

摘要:
模型容量是指模型拟合各种函数的能力,决定了模型是欠拟合还是过拟合。 欠拟合就是指模型的训练误差过大,即偏差过大,表现为模型不够”准“,优化算法目的在于解决欠拟合问题。 过拟合就是指训练误差和测试误差间距过大,即方差过大,表现为模型不够”稳“,正则化目的在于解决过拟合问题。 机器学习模型的目的是解决欠拟合和过拟合的问题,这也是机器学习算法的两个挑战。
阅读全文

摘要:
K 近邻算法(KNN)是一种基本分类和回归方法。KNN 算法的核心思想是如果一个样本在特征空间中的 k 个最相邻的样本中的大多数属于一个类别,那该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分类样本所属的类别。
阅读全文

摘要:
查准率和查全率是一对矛盾的的度量。一般来说,查全率高时,查准率往往偏低;而查全率高时,查准率往往偏低。通常只有在一些简单任务中,才可能使查全率和查准率都很好高。
精准率和召回率的关系可以用一个 P-R 图来展示,以查准率 P 为纵轴、查全率 R 为横轴作图,就得到了查准率-查全率曲线,简称 P-R 曲线,PR 曲线下的面积定义为 AP。
阅读全文
