摘要:
Woe公式如下: woe反映的是在自变量每个分组下违约用户对正常用户占比和总体中违约用户对正常用户占比之间的差异。 IV公式如下: IV衡量的是某一个变量的信息量,相当于是自变量woe值的一个加权求和,其值的大小决定了自变量对于目标变量的影响程度;从另一个角度来看的话,IV公式与信息熵的公式极其相似 阅读全文
摘要:
信息熵的公式 其中代表随机事件X为的概率。 演示: 性别(x)考试成绩(y) 男 优 女 优 男 差 女 优 男 优 X的信息熵计算为: p(男) = 3/5 = 0.6 p(女) = 2/5 = 0.4 根据上面的计算公式可得: 列X的信息熵 为: H(x)= - ( 0.6 * log2(0.6 阅读全文
摘要:
决策树理论 决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和C5.0等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。 决策树是一种十分常用的分类方法,需要监管学习(有教师的Supervised Lear 阅读全文