随笔分类 - 机器学习

摘要：

ROC/AUC/PDF/CDF 阅读全文

posted @ 2023-09-14 16:33 半度墨水阅读(135) 评论(0) 推荐(0) 编辑

KL散度

摘要：

KL散度的用途用来衡量真实分布和近似分布之间的差距（两个数据分布之间的距离） KL散度的定义连续变量：离散变量：其中 q(x) 是近似分布，p(x) 是真实分布。直观地说，这衡量的是给定任意分布偏离真实分布的程度。如果两个分布完全匹配，DKL=0，否则它的取值应该是在 0 到无穷大（inf）阅读全文

posted @ 2023-09-08 14:43 半度墨水阅读(547) 评论(0) 推荐(0) 编辑

特征选择 - Fisher Score

摘要：特征选择的目的在理想情况下，特征选择想要达到以下效果：简化模型以提高可解释性：通过减少特征的数量，模型变得更简单，更容易理解。这对于那些需要理解模型如何做出预测的领域（如医疗或信贷评分）非常重要。改进模型性能：通过消除无关或冗余的特征，模型的预测性能可能会得到提高。这是因为无关或冗余的特征可能阅读全文

posted @ 2023-07-25 10:44 半度墨水阅读(1130) 评论(0) 推荐(0) 编辑

凸函数与非凸函数

摘要：凸函数与非凸函数在数学中，如果一个函数在它定义的整个区间上满足以下性质，那么它就是一个凸函数：对于任意两个点x和y以及任意一个实数t（0 ≤ t ≤ 1），函数在点tx + (1 - t)y的值小于或等于在点x和点y的函数值的加权平均，也就是说，凸函数的图形在两点之间的弦的下方。即f(tx+(1 阅读全文

posted @ 2023-05-26 20:00 半度墨水阅读(2663) 评论(0) 推荐(0) 编辑

控制台安装虚拟环境常见指令和用法

摘要：查看conda信息（版本，安装位置等等） conda info 创建一个新的虚拟环境 conda create -n your_env_name conda create -n your_env_name python=3.9.2 (带python版本的创建) 激活虚拟环境 conda activa 阅读全文

posted @ 2023-02-28 19:25 半度墨水阅读(69) 评论(0) 推荐(0) 编辑

机器学习的正则化

摘要：

什么是正则化？正则化是在机器学习中防止过拟合，提高模型的泛化能力的一种技术，我们训练模型就是对目标函数求解，而目标函数就是误差函数（损失函数）加正则化项，正则化项当中的 λ 被称为正则化系数，越大，这个限制越强。需要值得注意的是，正则化往往用在线性函数上面，如线性回归、逻辑回归，SVM等，复杂的神阅读全文

posted @ 2022-10-06 16:36 半度墨水阅读(150) 评论(0) 推荐(0) 编辑

准确率（Accuracy）查准率（Precision）、召回率（Recall）、F1-score

摘要：

对于最简单的二分类任务：（此图叫混淆矩阵） TP：预测为Positive并且真实值也为Positive（样本为正类且预测为正类） TN：预测为Negative并且真实值也为Negative（样本为负类且预测为负类） FP：预测为Positive但真实值也为Negative（样本为负类但预测为正类）阅读全文

posted @ 2022-08-13 00:20 半度墨水阅读(912) 评论(0) 推荐(0) 编辑

什么是损失函数？

摘要：