随笔分类 - 机器学习
摘要:
KL散度的用途 用来衡量真实分布和近似分布之间的差距(两个数据分布之间的距离) KL散度的定义 连续变量: 离散变量: 其中 q(x) 是近似分布,p(x) 是真实分布。直观地说,这衡量的是给定任意分布偏离真实分布的程度。如果两个分布完全匹配,DKL=0,否则它的取值应该是在 0 到无穷大(inf)
阅读全文

摘要:特征选择的目的 在理想情况下,特征选择想要达到以下效果: 简化模型以提高可解释性:通过减少特征的数量,模型变得更简单,更容易理解。这对于那些需要理解模型如何做出预测的领域(如医疗或信贷评分)非常重要。 改进模型性能:通过消除无关或冗余的特征,模型的预测性能可能会得到提高。这是因为无关或冗余的特征可能
阅读全文
摘要:凸函数与非凸函数 在数学中,如果一个函数在它定义的整个区间上满足以下性质,那么它就是一个凸函数:对于任意两个点x和y以及任意一个实数t(0 ≤ t ≤ 1),函数在点tx + (1 - t)y的值小于或等于在点x和点y的函数值的加权平均,也就是说,凸函数的图形在两点之间的弦的下方。 即f(tx+(1
阅读全文
摘要:查看conda信息(版本,安装位置等等) conda info 创建一个新的虚拟环境 conda create -n your_env_name conda create -n your_env_name python=3.9.2 (带python版本的创建) 激活虚拟环境 conda activa
阅读全文
摘要:
什么是正则化? 正则化是在机器学习中防止过拟合,提高模型的泛化能力的一种技术,我们训练模型就是对目标函数求解,而目标函数就是误差函数(损失函数)加正则化项,正则化项当中的 λ 被称为正则化系数,越大,这个限制越强。需要值得注意的是,正则化往往用在线性函数上面,如线性回归、逻辑回归,SVM等,复杂的神
阅读全文

摘要:
对于最简单的二分类任务: (此图叫混淆矩阵) TP:预测为Positive并且真实值也为Positive(样本为正类且预测为正类) TN:预测为Negative并且真实值也为Negative(样本为负类且预测为负类) FP:预测为Positive但真实值也为Negative(样本为负类但预测为正类)
阅读全文

摘要:
损失函数(Loss Function)
机器学习模型关于单个样本的预测值与真实值的差称为损失。损失越小,模型越好,如果预测值与真实值相等,就是没有损失。用于计算损失的函数称为损失函数。模型每一次预测的好坏用损失函数来度量。
阅读全文

摘要:
梯度下降就是沿着梯度所指引的方向,一步一步向下走,去寻找损失函数最小值的过程,然后我们就找到了接近正确的模型。
阅读全文

摘要:
常用的机器学习的分类:无监督学习、监督学习、半监督学习,自监督学习、深度学习、强化学习、集成学习、迁移学习、元学习。
阅读全文
