摘要:
特征选择的目的 在理想情况下,特征选择想要达到以下效果: 简化模型以提高可解释性:通过减少特征的数量,模型变得更简单,更容易理解。这对于那些需要理解模型如何做出预测的领域(如医疗或信贷评分)非常重要。 改进模型性能:通过消除无关或冗余的特征,模型的预测性能可能会得到提高。这是因为无关或冗余的特征可能 阅读全文
摘要:
凸函数与非凸函数 在数学中,如果一个函数在它定义的整个区间上满足以下性质,那么它就是一个凸函数:对于任意两个点x和y以及任意一个实数t(0 ≤ t ≤ 1),函数在点tx + (1 - t)y的值小于或等于在点x和点y的函数值的加权平均,也就是说,凸函数的图形在两点之间的弦的下方。 即f(tx+(1 阅读全文
摘要:
在机器学习和数据科学中,范数常常被用来作为正则化项,防止模型过拟合,或者用来衡量模型复杂度。 具体来说,范数(Norm)是一种测量向量“长度”或“大小”的函数。范数需要满足一些性质,包括: 非负性:对任意向量v,范数都是非负的,即||v|| >= 0,且当且仅当v=0时,||v|| = 0 一致性: 阅读全文
摘要:
查看conda信息(版本,安装位置等等) conda info 创建一个新的虚拟环境 conda create -n your_env_name conda create -n your_env_name python=3.9.2 (带python版本的创建) 激活虚拟环境 conda activa 阅读全文
摘要:
归一化和标准化有什么区别? 归一化(N o r m a l i z a t i o n NormalizationNormalization):将一列数据变化到某个固定区间(范围)中,通常,这个区间是[0, 1],广义的讲,可以是各种区间,比如映射到[0,1]一样可以继续映射到其他范围,图像中可能会 阅读全文
摘要:
什么是正则化? 正则化是在机器学习中防止过拟合,提高模型的泛化能力的一种技术,我们训练模型就是对目标函数求解,而目标函数就是误差函数(损失函数)加正则化项,正则化项当中的 λ 被称为正则化系数,越大,这个限制越强。需要值得注意的是,正则化往往用在线性函数上面,如线性回归、逻辑回归,SVM等,复杂的神 阅读全文
摘要:
什么是激活函数? 就是在人工神经网络的神经元上运行的函数,引入激活函数是为了增加神经网络模型的非线性,将非线性特性引入到神经网络中。 为什么要用激活函数 如果不用激活函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合,这种情况就是最原始的感知机(Perceptron 阅读全文
摘要:
对于最简单的二分类任务: (此图叫混淆矩阵) TP:预测为Positive并且真实值也为Positive(样本为正类且预测为正类) TN:预测为Negative并且真实值也为Negative(样本为负类且预测为负类) FP:预测为Positive但真实值也为Negative(样本为负类但预测为正类) 阅读全文
摘要:
列表是python中最常用到的数据结构之一,其中切片操作可以有很多使用技巧(包括倒序输出...) 对于一个列表 list = [1, 2, 3, 4, 5] list[-1] 原型是索引从左向右依次为0,1,2,3,4;与之对应的是-5,-4,-3,-3,-1,即 list[0] == list[- 阅读全文
摘要:
损失函数(Loss Function)
机器学习模型关于单个样本的预测值与真实值的差称为损失。损失越小,模型越好,如果预测值与真实值相等,就是没有损失。用于计算损失的函数称为损失函数。模型每一次预测的好坏用损失函数来度量。 阅读全文