机器学习可解释性--LIME源码阅读

首先，访问github上的LIME源码，https://github.com/marcotcr/lime

将代码克隆至本地。我用的是pycharm打开进行阅读。下载下来后使用

pip install . ,别用pip install lime，使用后面的就不会使用源码中的Lime，阅读源码使用printf大法就会失效了。

可以看一下readme文档中提到的一个最简单的tutorial，以它为切入点开始源码的阅读。

https://github.com/marcotcr/lime/blob/master/doc/notebooks/Lime%20-%20basic%20usage%2C%20two%20class%20case.ipynb

这篇tutorial notebook的前半部分是在调用sklearn中的random forest进行文本分类。是一个二分类。

接下来，就要用到LIME模型对随机森林进行解释了

首先，使用sklearn中的Pipeline,目的是为了能直接输入纯文本就能得到预测结果，相当于是对模型的封装

上面这几行代码就完成了对随机森林的解释

接下来，就需要对源码进行阅读了

首先来到LimeTextExplainer类中，我来说明一下各个参数的意义

kernel_width，就是论文中的计算权重的公式中的

kernel是一个函数，就是论文中的计算权重的这个Πx(z)函数，在源码中，给出了下面的公式，其中d就是一个距离向量，在LIME中，会通过随机的方式在原始样本点周围生成许多的新样本点，这个d向量的形式如下：

[原始样本点与原始样本点距离，第一个随机样本点与原始样本点的距离，第二个随机样本点与原始样本点的距离，第三个......]，依次类推。

不过可以看到，源码中的公式好像比论文中多了一个开根号的操作。我没有找到这么做的原因，留着待日后探究。

verbose用来控制输出的详细程度，true就会输出一些相关信息，false就不会输出

class_names：类别标签的名字，用来可视化用的

feature_selection:这是用来指示使用哪种特征选择方法的变量。特征选择指的是在LIME中，对于一个纯文本，会将它变成一个全1的向量，每一个1代表句子中的一个单词，如果这个文本特别长的话，那么特征的维数可能会特别多。而我们要做的是可解释性，要计算特征的重要程度，特征数量太多人看不过来（论文中就这么说的），所以要选几个代表性的特征，将他们的重要程度算出来就行了。具体的方法在文章之后继续将。

split_expression:切分纯文本的函数，用来对文本进行处理的。这里的'rW+'是一个正则表达式

bow:设置为true,表示采用词袋模型，将不同位置上的相同的词语视为同一个，设置为false，表示将不同位置上的相同的词语设为不同的。

mask_string：如果bow为true,没有作用，如果bow为false，会用来mask掉那些应该被删除的样本中的词。

random_state:一个整数或者numpy，用来生成随机数的东西。

char_level:是否要在字符级别上对文本进行处理。

接下来，我们看这个类当中的explain_instance函数