2021 年 1月 10 日随笔档案 - lvdongjie-avatarx

2021年1月10日

摘要：一、逻辑回归二、判定边界当将训练集的样本以其各个特征为坐标轴在图中进行绘制时，通常可以找到某一个判定边界去将样本点进行分类。例如：线性判定边界：非线性判定边界：三、二分类和sigmoid函数 sigmoid函数图像如下：四、损失函数 1. 定义 2. 极大似然估计上面是一种求损失函阅读全文

posted @ 2021-01-10 21:55 lvdongjie-avatarx 阅读(1511) 评论(0) 推荐(3) 编辑

KNN-k近邻算法原理

摘要： K近邻(K-nearst neighbors, KNN)是一种基本的机器学习算法，所谓，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。比如：判断一个人的人品，只需要观察与他来往最密切的几个人的人品好坏就可以得出，即“近朱者赤，近墨者黑”；KNN算法既可以应用于分类应用中，阅读全文

posted @ 2021-01-10 20:46 lvdongjie-avatarx 阅读(256) 评论(0) 推荐(0) 编辑

机器学习gridsearchcv(网格搜索)和kfold validation(k折验证)的区别与联系

摘要：网格搜索算法和K折交叉验证法是机器学习入门的时候遇到的重要的概念。网格搜索算法是一种通过遍历给定的参数组合来优化模型表现的方法。以决策树为例，当我们确定了要使用决策树算法的时候，为了能够更好地拟合和预测，我们需要调整它的参数。在决策树算法中，我们通常选择的参数是决策树的最大深度。于是我们会给出阅读全文

posted @ 2021-01-10 19:03 lvdongjie-avatarx 阅读(716) 评论(0) 推荐(0) 编辑

Sklearn中交叉验证 KFold

摘要：一. 交叉验证原理讲解 1. 设置验证集的原因在机器学习建模过程中，将数据分为训练集和测试集。测试集合训练集是完全分开的两个数据集，完全不参与训练，只是用于模型最终确定后，来测试模型的效果。而训练集又要分出一部分数据用来验证模型的训练效果，即验证集。验证集在每次训练集训练结束后，对模型的效果进行初阅读全文

posted @ 2021-01-10 18:59 lvdongjie-avatarx 阅读(169) 评论(0) 推荐(0) 编辑

多分类问题的评价指标

摘要：对于二分类问题，precision，recall，auc，f1_score的计算原理都比较熟悉，但是多分类问题的计算还是有一点小小的区别，在使用sklearn.metrics的时候需要注意一下；对于sklearn.metrics下的roc_auc_score, precision_score, r 阅读全文

posted @ 2021-01-10 18:52 lvdongjie-avatarx 阅读(430) 评论(0) 推荐(0) 编辑

基于网格搜索的交叉验证 sklearn-GridSearchCV,CV调节超参

摘要： GridSearchCV 简介： GridSearchCV，它存在的意义就是自动调参，只要把参数输进去，就能给出最优化的结果和参数。但是这个方法适合于小数据集，一旦数据的量级上去了，很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算阅读全文

posted @ 2021-01-10 18:42 lvdongjie-avatarx 阅读(500) 评论(0) 推荐(0) 编辑

AUC vs F1 的区别

摘要：面试的时候经常被问的一个问题是 AUC和F1 score有什么区别。笔者看了很多博文，感觉相当一部分在分析混淆矩阵和auc、f1的定义上花了太多笔墨，但对于两者的区别和联系，有种到了门前就差临门一脚的感觉。因此笔者去stack overflow上找了很多回答，感觉收获很多，在此简明扼要的写一下收获。阅读全文

posted @ 2021-01-10 18:18 lvdongjie-avatarx 阅读(1918) 评论(0) 推荐(1) 编辑

Logistic and Softmax Regression (逻辑回归和Softmax回归)

摘要： 1．简介逻辑回归和Softmax回归是两个基础的分类模型，虽然听名字以为是回归模型，但实际我觉得他们也有一定的关系。逻辑回归，Softmax回归以及线性回归都是基于线性模型，它们固定的非线性的基函数（basis function）的线性组合，形式如下： 2．逻辑回归谈谈逻辑回归，Softmax 阅读全文

posted @ 2021-01-10 14:53 lvdongjie-avatarx 阅读(202) 评论(0) 推荐(0) 编辑

数学基础 - 二项分布

摘要：现在要开始讲到分布了，当然首先要谈的肯定是二项分布，在此之前，让我们先认识一下我们的前辈。瑞士数学家雅克·伯努利(Jacques Bernoulli,1654～1705)首次研究独立重复试验(每次成功率为p)。在他去世后的第8年(1713年)，他侄子尼克拉斯出版了伯努利的著作《推测术》。在书中，伯阅读全文

posted @ 2021-01-10 11:31 lvdongjie-avatarx 阅读(3077) 评论(0) 推荐(0) 编辑

机器学习算法--逻辑回归

摘要：一、逻辑回归基本概念 1. 什么是逻辑回归逻辑回归就是这样的一个过程：面对一个回归或者分类问题，建立代价函数，然后通过优化方法迭代求解出最优的模型参数，然后测试验证我们这个求解的模型的好坏。 Logistic回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两分类问题（即输出只有两种，阅读全文

posted @ 2021-01-10 11:28 lvdongjie-avatarx 阅读(256) 评论(0) 推荐(0) 编辑

sklearn中的Pipeline

摘要： Pipeline可以将许多算法模型串联起来，比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流。主要带来两点好处：直接调用fit和predict方法来对pipeline中的所有算法模型进行训练和预测。可以结合grid search对参数进行选择。在下面的例子中，我们使用决策阅读全文

posted @ 2021-01-10 10:59 lvdongjie-avatarx 阅读(178) 评论(0) 推荐(0) 编辑

Pandas Apply函数

摘要： Series.apply Series.apply(func, convert_dtype=True, args=(), **kwds) 对序列的每一个元素作用传入的函数参数参数描述 func : function 所要应用的函数 convert_dtype : boolean, default 阅读全文

posted @ 2021-01-10 10:47 lvdongjie-avatarx 阅读(140) 评论(0) 推荐(0) 编辑

标准化、归一化、正则化的区别与联系

摘要：标准化（standardization）：数据标准化是将数据按比例缩放，使其落入到一个小的区间内，标准化后的数据可正可负，但是一般绝对值不会太大，一般是z-score标准化方法：减去期望后除以标准差。特点：对不同特征维度的伸缩变换的目的是使其不同度量之间的特征具有可比性，同时不改变原始数据的分阅读全文

posted @ 2021-01-10 10:08 lvdongjie-avatarx 阅读(1879) 评论(0) 推荐(2) 编辑

标准化与归一化的区别

摘要：很多人认为标准化理解为归一化，然而是有区别的，下面告诉你不同之处：（一）归一化特点对不同特征维度的伸缩变换的目的是使各个特征维度对目标函数的影响权重是一致的，即使得那些扁平分布的数据伸缩变换成类圆形。这也就改变了原始数据的一个分布。好处 1 提高迭代求解的收敛速度 2 提高迭代求解的精度（阅读全文

posted @ 2021-01-10 10:04 lvdongjie-avatarx 阅读(1238) 评论(0) 推荐(0) 编辑

Sklearn之数据预处理——StandardScaler

摘要：为什么要进行归一化？机器学习模型被互联网行业广泛应用，一般做机器学习应用的时候大部分时间是花费在特征处理上，其中很关键的一步就是对特征数据进行归一化，为什么要归一化呢？维基百科给出的解释：归一化后加快了梯度下降求最优解的速度；如果机器学习模型使用梯度下降法求最优解时，归一化往往非常有必要，否则阅读全文

posted @ 2021-01-10 09:56 lvdongjie-avatarx 阅读(420) 评论(0) 推荐(0) 编辑

lvdongjie-avatarx

此博客专攻人工智能。

公告