2018年7月5日

IV

摘要: https://blog.csdn.net/kevin7658/article/details/50780391 讲得很明白的一篇文章 1.IV的用途 IV的全称是Information Value,中文意思是信息价值,或者信息量。 我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量 阅读全文

posted @ 2018-07-05 08:47 离云1 阅读(1044) 评论(0) 推荐(0) 编辑

2018年7月4日

分箱——转

摘要: one-hot 编码会将原始变量中的每个状态都做为作为一个新的特征,当原始特征状态较多时,数据经过one-hot编码之后特征数量会成倍的增加,同时新特征也会变得过于稀疏。在进行变量筛选的过程中,也会出现原始特征的一部分状态被筛选出来,另一部分状态未被筛选出来,造成特征的不完整。 而WOE编码不仅可以 阅读全文

posted @ 2018-07-04 22:18 离云1 阅读(204) 评论(0) 推荐(0) 编辑

2018年7月1日

概念解释

摘要: 一、损失函数:是一种衡量损失和错误程度的函数 二、梯度下降法:是一种迭代的优化算法 梯度:是一个向量,表示一个函数在该点处,它的方向与取得最大方向导数的方向一致,而它的模为方向导数的最大值. 梯度下降法(Gradient Descent,GD)算法是求解最优化问题最简单、最直接的方法。梯度下降法是一 阅读全文

posted @ 2018-07-01 16:23 离云1 阅读(138) 评论(0) 推荐(0) 编辑

2018年6月4日

logistic regression 各参数

摘要: Logistics Regression和Logistic RegressionCV logistic RegressionCV使用交叉验证来计算正则化系数C 1、penalty 默认为L2 (1)在调参时,如果是为了解决过拟合问题,一般用L2就可以了。但如果选择L2后发现还是过拟合,则需要用L1 阅读全文

posted @ 2018-06-04 08:52 离云1 阅读(589) 评论(0) 推荐(0) 编辑

导航