随笔分类 -  ML Basics

摘要:如何找出模型需要的特征?首先要找到该领域的业务专家,让他们给一些建议。比如我们需要解决一个药品疗效的分类问题,那么先找到领域专家,向他们咨询哪些因素(特征)会对该药品的疗效产生影响,较大影响和较小影响的因素都要。这些因素就是我们特征的第一候选集。(摘自:https://www.cnblogs.com 阅读全文
posted @ 2020-02-29 10:33 HuZihu 阅读(2944) 评论(0) 推荐(0) 编辑
摘要:线性回归模型比较常见的特征选择方法有两种,分别是最优子集和逐步回归。此外还有正则化,降维等方法。 1,最优子集(Best Subset Selection):从零号模型(null model)M0开始,这个模型只有截距项而没有任何自变量。然后用不同的特征组合进行拟合,从中分别挑选出一个最好的模型(R 阅读全文
posted @ 2020-02-21 22:22 HuZihu 阅读(19513) 评论(0) 推荐(0) 编辑
摘要:一,定义 异常点(Outlier):残差很大的点(即:因变量y的值是极端值的观测值) 高杠杆点(High Leverage Point):远离样本空间中心的点(即:自变量x的值是极端值的观测值) 强影响点(Influential Point):对模型有较大影响的点,如果删除该点能改变拟合回归方程 注 阅读全文
posted @ 2020-02-16 10:49 HuZihu 阅读(19521) 评论(2) 推荐(2) 编辑
摘要:特征缩放的几种方法: (1)最大最小值归一化(min-max normalization):将数值范围缩放到 [0, 1] 区间里 (2)均值归一化(mean normalization):将数值范围缩放到 [-1, 1] 区间里,且数据的均值变为0 (3)标准化 / z值归一化(standardi 阅读全文
posted @ 2019-08-11 17:50 HuZihu 阅读(12019) 评论(4) 推荐(6) 编辑
摘要:在《定量变量和定性变量的转换(Transform of Quantitative & Qualitative Variables)》一文中,我们可以看到虚拟变量(Dummy Variable)与独热编码( One Hot Encoding)非常相似,其不同之处在于:在虚拟编码方案中,当特征具有 m 阅读全文
posted @ 2019-08-10 16:05 HuZihu 阅读(3792) 评论(0) 推荐(0) 编辑
摘要:虚拟变量陷阱(Dummy Variable Trap):指当原特征有m个类别时,如果将其转换成m个虚拟变量,就会导致变量间出现完全共线性的情况。 假设我们有一个特征“性别”,包含男性和女性两个类别,如果将此特征转换为2个虚拟变量,就是:男x1=[1,0],女x2=[0,1],意思就是:变量x1,当性 阅读全文
posted @ 2019-08-10 10:59 HuZihu 阅读(10893) 评论(1) 推荐(1) 编辑
摘要:定量变量(Quantitative Variables):也称为数值型变量(Numerical Variables),可以用连续值或离散值表示。比如:气温(连续值),学生人数(离散值)。 为什么要对定量变量进行转换?大多数情况下,我们可以直接使用定量变量。但是有时候,特征和目标之间不呈线性关系。比如 阅读全文
posted @ 2019-08-09 17:29 HuZihu 阅读(10979) 评论(0) 推荐(2) 编辑
摘要:类别不平衡问题是指:在分类任务中,数据集中来自不同类别的样本数目相差悬殊。 类别不平衡问题会造成这样的后果:在数据分布不平衡时,其往往会导致分类器的输出倾向于在数据集中占多数的类别:输出多数类会带来更高的分类准确率,但在我们所关注的少数类中表现不佳。 处理这个问题通常有3种方法: 1. 欠采样 假设 阅读全文
posted @ 2019-07-24 21:20 HuZihu 阅读(3973) 评论(1) 推荐(0) 编辑
摘要:之前介绍了这么多分类模型的性能评价指标(《分类模型的性能评价指标(Classification Model Performance Evaluation Metric)》),那么到底应该选择哪些指标来评估自己的模型呢?答案是应根据应用场景进行选择。 查全率(Recall):recall是相对真实的情 阅读全文
posted @ 2019-07-24 20:42 HuZihu 阅读(4423) 评论(0) 推荐(0) 编辑
摘要:二分类模型的预测结果分为四种情况(正类为1,反类为0): TP(True Positive):预测为正类,且预测正确(真实为1,预测也为1) FP(False Positive):预测为正类,但预测错误(真实为0,预测为1) TN(True Negative):预测为负类,且预测正确(真实为0,预测 阅读全文
posted @ 2019-07-20 17:14 HuZihu 阅读(5247) 评论(0) 推荐(0) 编辑
摘要:自助法(Bootstraping)是另一种模型验证(评估)的方法(之前已经介绍过单次验证和交叉验证:验证和交叉验证(Validation & Cross Validation))。其以自助采样法(Bootstrap Sampling)为基础,即有放回的采样或重复采样。(注:这是一种样本内抽样的方法, 阅读全文
posted @ 2019-07-16 14:12 HuZihu 阅读(15064) 评论(0) 推荐(1) 编辑
摘要:在机器学习中,当确定好一个模型后,我们需要将它保存下来,这样当新数据出现时,我们能够调出这个模型来对新数据进行预测。同时这些新数据将被作为历史数据保存起来,经过一段周期后,使用更新的历史数据再次训练,得到更新的模型。 如果模型的流转都在python内部,那么可以使用内置的pickle库来完成模型的存 阅读全文
posted @ 2019-07-15 17:56 HuZihu 阅读(7546) 评论(0) 推荐(0) 编辑
摘要:因为光看模型在训练集上的表现容易导致过拟合,因此回归模型通常有两种评价方式,一种是看验证/交叉验证的结果,另一种是对训练集上的表现结果进行修正,常见指标有:AIC,BIC,Cp,adjusted R2。 用验证/交叉验证方式评价回归模型性能的指标(Performance Evaluation Met 阅读全文
posted @ 2019-07-15 15:45 HuZihu 阅读(7896) 评论(0) 推荐(0) 编辑
摘要:什么是超参数? 机器学习模型中一般有两类参数:一类需要从数据中学习和估计得到,称为模型参数(Parameter) 即模型本身的参数。比如,线性回归直线的加权系数(斜率)及其偏差项(截距)都是模型参数。还有一类则是机器学习算法中的调优参数(tuning parameters),需要人为设定,称为超参数 阅读全文
posted @ 2019-07-10 10:58 HuZihu 阅读(36782) 评论(2) 推荐(9) 编辑
摘要:之前在《训练集,验证集,测试集(以及为什么要使用验证集?)(Training Set, Validation Set, Test Set)》一文中已经提过对模型进行验证(评估)的几种方式。下面来回顾一下什么是模型验证的正确方式,并详细说说交叉验证的方法。 验证(Validation):把数据集随机分 阅读全文
posted @ 2019-07-08 14:18 HuZihu 阅读(14506) 评论(2) 推荐(0) 编辑
摘要:对于训练集,验证集,测试集的概念,很多人都搞不清楚。网上的文章也是鱼龙混杂,因此,现在来把这方面的知识梳理一遍。让我们先来看一下模型验证(评估)的几种方式。 在机器学习中,当我们把模型训练出来以后,该怎么对模型进行验证呢?(也就是说怎样知道训练出来的模型好不好?)有以下几种验证方式: 第一种方式:把 阅读全文
posted @ 2019-07-05 21:15 HuZihu 阅读(25501) 评论(4) 推荐(7) 编辑
摘要:有时候特征x和目标y不呈线性关系,线性模型y=wx+b不能很好地反映事物的规律或者无法对事物进行有效分类,因此此时我们需要使用非线性模型。 (x=([x1,x2,...,xn])T,w=([w1,w2,...,wn])T) 比如说下图的分类问题,显然无论用什么样的直线都很难把圈圈和叉叉很好地分隔开来 阅读全文
posted @ 2019-07-02 17:08 HuZihu 阅读(4233) 评论(0) 推荐(0) 编辑
摘要:以下摘录一些numpy的练习题。答案仅供参考,并不是唯一的。因为完成题目可以用很多种不同的方法,因此只要你自己的方法能够完成任务即可。 1、如何创建从0到9的一维数组? 结果: 答案: 2. 如何创建一个3*3的二维数组,值全为True(真)? 结果: 答案: or 3. 如何创建一个3×3的二维数 阅读全文
posted @ 2019-06-28 10:40 HuZihu 阅读(5915) 评论(0) 推荐(0) 编辑
摘要:之前在《过拟合和欠拟合(Over fitting & Under fitting)》一文中简要地介绍了过拟合现象,现在来详细地分析一下过拟合产生的原因以及相应的解决办法。 过拟合产生的原因: 第一个原因就是用于训练的数据量太少。这个很好理解,因为理想的训练数据是从所有数据中抽取的无偏差抽样。如果训练 阅读全文
posted @ 2019-06-27 19:53 HuZihu 阅读(2180) 评论(0) 推荐(0) 编辑
摘要:NumPy(Numerical Python) 是使用python进行机器学习不可或缺的第三方库,它支持数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。ndarray对象是numpy中的基本对象之一,和python列表不同之处在于:python列表可以存放任何类型的元素,而ndarray对象 阅读全文
posted @ 2019-06-11 17:34 HuZihu 阅读(823) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示