摘要:
申请评分卡模型 数据的预处理与特征构建(续) 课程简介:逻辑回归模型的特征需要是数值型,因此类别型变量不能直接放入模型中去,需要对其进行编码。此外,为了获取评分模型的稳定性,建模时需要对数值型特征做分箱的处理。最终在带入模型之前,我们还需要对特征做单变量与多变量分析的工作。 目录: 特征的分箱 WO 阅读全文
摘要:
申请评分卡模型 数据的预处理与特征构建 简介:在构建评分卡模型的工作中,数据的预处理和特征构建工作是至关重要的一步。数据的预处理工作可以有效处理缺失值与异常值,从而增强模型的稳健性。而特征构建工作则可以将信息从字段中加以提炼,形成有业务含义的优异特征。 评分卡模型的简介 风控场景中的评分卡: 以分数形式来衡量风险几率的一种手段 是对未来一段时间内违约/逾期/失联概率的预测 有一个明确的(正)区间 ... 阅读全文
摘要:
, 少数服从多数:hard voting soft_voting , , , , , , ,, , , 此时便可以不使用train_test_split了 , Bagging:使用随机取样的方式包括在特征空间中随机取特征的方式来创建诸多的子模型然后将他们集成在一起 , , , , 阅读全文
摘要:
什么是决策树: , , , , , 朝着信息熵降低的方向,即让系统变得更加确定 def split(X,y,d,value): # 每个节点上的维度d,相应的阈值:value index_a=(X[:,d]<=value) index_b=(X[:,d]>value) return X[index_ 阅读全文
摘要:
支持向量机(support vector machines)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。由简至繁的模型包括: 当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机; 当训练样本近似线性可分时,通 阅读全文
摘要:
分类算法的评价 分类准确度的问题 , , 精准率和召回率 , , , , , , Precision和Recall的平衡 , , , , , ,, , , ROC,AUC用来比较两个模型的优劣 import numpy as np from sklearn import datasets digit 阅读全文
摘要:
问题:线性回归要求假设我们的数据背后存在线性关系; , 如果将x的平方理解成一个特征,x理解成另一个特征;本来只有一个特征x,现在看成有两个特征的数据集,多了一个特征,就是x的平方,其实式子本身依然是一个线性回归的式子,但是从x 的角度来看,也就是所谓的非线性方程,这样的方式就叫做多项式回归 PCA 阅读全文
摘要:
, , ,, , , , 阅读全文
摘要:
逻辑回归:实际解决分类问题 回归怎么解决分类问题?将样本的特征和样本发生的概率联系起来,概率是一个数,由于概率是一个数,所以可以管它叫做回归问题。对于机器学习算法来说,本质就是 求出一个函数小f,如果此时有一个样本x,经过f的运算之后就会得到一个预测值,通常称之为y。y的值实际上就是本身我们关心的那 阅读全文
摘要:
主成分分析法:主要作用是降维 疑似右侧比较好? 第三种降维方式: 问题:????? 方差:描述样本整体分布的疏密的指标,方差越大,样本之间越稀疏;越小,越密集 第一步: 总结: 问题:????怎样使其最大 变换后: 最后的问题:???? 注意区别于线性回归 使用梯度上升法解决PCA问题: impor 阅读全文