随笔 - 383 文章 - 0 评论 - 0 阅读 - 35125

SHAP解释模型

环境配置：

以下实验使用当前最新版本shap：0.39.0

$ pip install shap

注意xgboost也需要使用对应的较新版本，如：

$ pip install xgboost==0.82

为使用交互界面，notebook环境下，加载用于可视化的JS代码

import shap
shap.initjs()

SHAP实验

SHAP的可解释性，基于对每一个训练数据的解析。比如：解析第一个实例每个特征对最终预测结果的贡献。

shap.plots.force(shap_values[0])

（图一）

对如此图中，红色特征使预测值更大（类似正相关），蓝色使预测值变小，而颜色区域宽度越大，说明该特征的影响越大。（此处图中数字是特征的具体数值）其中base_value是所有样本的平均预测值，output_value即f(x)是本实例的预测值。本例分析了回归问题，对于分类问题，可以看到base_value和output_value并不在0-1之间，这是由于对数转换造成的。

进而可以画出每个特征对结果影响程度的具体大小（此处图中数字是特征权重）

shap.plots.waterfall(shap_values[0])

（图二）

以上都是对于单个实例的解释，更多的时候我们看到的是这种图：

shap.plots.beeswarm(shap_values)

（图三）

它对所有实例作图，相当于把图一上的每个特征旋转90度画成点图。这样可以看到特征对预测影响的大小，需要注意的是：这里的横坐标是shap-value即影响的权重，而非特征的具体值，特征值大小对结果的影响通过颜色表示（红色为值大，蓝色为值小，紫色邻近均值）。因此，区域分布越宽说明它的影响力越大，因此这个图一般是上宽下窄（影响大的放在上面）。图中最后一行显示了Sum of other features，如果不需要显示这一行，则可使用函数：

shap.summary_plot(shap_values, test, max_display=5)

上只是罗列结果，并未进行统计处理，而对模型产生最大影响的前N的特征，一般是通过各个特征绝对值的均值（abs()->mean()）得到的，使用绝对值解决了正负抵消的问题，更关注相关性的大小。从这个图中就没办法看出是正相关还是负相关了，但使用shap工具可以得到具体的shap value，可以自行处理。

shap.plots.bar(shap_values)

（图四）

此处可引申出SHAP更多的用法，尤其对于研究和归因，比如研究模型对“老年男性”或者“入院第五天”人群的特征重要性。做柱图的bar函数支持cohort参数，通过传入list（与实例个数相等），来划分人群（当前版本（0.39.0）支持cohort分群逻辑）。

import numpy as np
idx = ['aa' for i in range(506)] # 定义群及对应标签 idx[5]='bb'
idx[8]='bb'
shap.plots.bar(shap_values.cohorts(idx))

（图五）

上述bar画出的是统计图，有时还是想在图中看出特征是正相关还是负相关，使用force函数可将多个实例的特征贡献度画在一张图上。

shap.plots.force(explainer.expected_value, shap_values.values[:10])

（图六）

force()工具非常灵活，横纵坐标都可以选择，每个横坐标对应一个实例，可选择：按输出排序，按实例顺序排序，按近似实例排序；纵向可以选择查看哪个些特征，默认是查看所有特征。通过转入不同的shap value数组，可以研究部分或全部实例。

参考

不再黑盒，机器学习解释利器：SHAP原理及实战
https://zhuanlan.zhihu.com/p/106320452

SHAP：Python的可解释机器学习库
https://zhuanlan.zhihu.com/p/83412330

posted on 2021-09-20 17:13 xieyan0811 阅读(924) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 论文阅读_时序模型Shapelet

· 论文阅读_时序TDTS

· 20240302|SHAP学习

· SHAP: 解释机器学习模型的统一方法

· 在机器学习中使用 SHAP 值实现模型可解释性

阅读排行：
· 在鹅厂做java开发是什么体验
· 百万级群聊的设计实践
· WPF到Web的无缝过渡：英雄联盟客户端的OpenSilver迁移实战
· 永远不要相信用户的输入：从 SQL 注入攻防看输入验证的重要性
· 浏览器原生「磁吸」效果！Anchor Positioning 锚点定位神器解析

公告

昵称： xieyan0811
园龄： 3年1个月
粉丝： 1
关注： 0

+加关注

2025年2月

日

一

二

三

四

五

六

SHAP解释模型

环境配置：

SHAP实验

参考

公告

搜索

常用链接

随笔档案

阅读排行榜

推荐排行榜