笔记01--《可解释的机器学习》

书籍来源:https://christophm.github.io/interpretable-ml-book/bike-data.html

P-37

线性回归的解释-4.1.5分类特征的编码

有多个类别的特征(天气:阴天、小雨、大雪…)要如何编码,不同的编码方式对应不同的权重解释。

假设有三种类别(A、B、C)的范畴特征,选六个实例,前两个是A类,中间两个B类,最后两个C类。

第一种:Treatment coding,这种编码方式下,每个类别的权重是对该类别与参考类别预测的差异(理解为一个普通的w,不用想太多)

每行表示一个实例,列表示特征,第一列表示截距β0,所以一直为1,第二列表示B类、第三列表示C类,B和C都为0就表示A类;如果单独增加A类的列话,线性方程就无法计算出权值唯一解。


第二种:Effect coding,这种编码方式下,每个类别的权重是该类别与总体平均值的y差(假设所有其他特征为0或为参考类)。
这里理解为,此时特征矩阵中0和1代表的已经不是类别,而是差值,差几个β0,差几个β1这样。



第三种:Dummy coding,忽略截距,每类的β代表该类计算出的y的平均值(假设所有其他特征为0或为参考类)

很好理解 ,是哪类就给哪类标1,忽略截距是为了让权重有解


posted @   littleiron  阅读(20)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示