笔记01--《可解释的机器学习》
书籍来源:https://christophm.github.io/interpretable-ml-book/bike-data.html
P-37
线性回归的解释-4.1.5分类特征的编码
有多个类别的特征(天气:阴天、小雨、大雪…)要如何编码,不同的编码方式对应不同的权重解释。
假设有三种类别(A、B、C)的范畴特征,选六个实例,前两个是A类,中间两个B类,最后两个C类。
第一种:Treatment coding,这种编码方式下,每个类别的权重是对该类别与参考类别预测的差异(理解为一个普通的w,不用想太多)
每行表示一个实例,列表示特征,第一列表示截距β0,所以一直为1,第二列表示B类、第三列表示C类,B和C都为0就表示A类;如果单独增加A类的列话,线性方程就无法计算出权值唯一解。
第二种:Effect coding,这种编码方式下,每个类别的权重是该类别与总体平均值的y差(假设所有其他特征为0或为参考类)。
这里理解为,此时特征矩阵中0和1代表的已经不是类别,而是差值,差几个β0,差几个β1这样。
第三种:Dummy coding,忽略截距,每类的β代表该类计算出的y的平均值(假设所有其他特征为0或为参考类)
很好理解 ,是哪类就给哪类标1,忽略截距是为了让权重有解
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律