交互决策树
摘要:1、介绍 ‘’主要用于增强单个变量的iv值,原来我们得到一个变量分箱之后的iv值,但是效果不是特别好,我们想要通过组合另外一个变量,来使得我们的效果最好,通过二分法去实现‘’ 可以简单理解为做组合变量 下面我们看看怎么做 2、先导入数据 本次使用的数据GiveMeSomeCredit,数据地址:ht
阅读全文
posted @
2022-09-08 15:14
小小喽啰
阅读(393)
推荐(0) 编辑
LIME 模型解释器
摘要:LIME 即是Local Interpretable Model-agnostic Explanations模型解释器,简单来说就是将每个变量的重要性可视化,集成学习xgb等有feature_importances_,还有专门的SHARP,那么LIME有什么优势呢? 首先我们来看看它的基本操作流程
阅读全文
posted @
2022-08-31 10:49
小小喽啰
阅读(898)
推荐(0) 编辑
特征重要性之shap value
摘要:20221118补充 关于分类问题的base,回归是均值,分类是:base_values + sum(shap_values[0].values) = ln(p/1-p) 下面直接看代码: # -*- coding: utf-8 -*- """ Created on Fri Nov 18 10:07
阅读全文
posted @
2021-09-26 19:12
小小喽啰
阅读(21322)
推荐(0) 编辑
特征重要性之排列重要性Permutaion Importance
摘要:基于模型刷选特征方法有:排列重要性、shap value、null importance 这里简单介绍一下排列重要性: 一、排列重要性原理 首先建立一个模型,计算某列特征重要性时,打乱该列顺序,其余列不变,然后再使用打乱后的数据来预测,最后计算正确率;如果某列对模型预测很重要,那么打乱该列顺序之后,
阅读全文
posted @
2021-09-26 16:46
小小喽啰
阅读(4239)
推荐(0) 编辑
模型指标混淆矩阵,accuracy,precision,recall,prc,auc
摘要:一、混淆矩阵 T和F代表是否预测正确,P和N代表预测为正还是负 这个图片我们见过太多次了,但其实要搞清楚我们的y值中的1定义是什么,这样就不会搞错TP、FP、FN、TN的顺序,比如说下面的混淆矩阵: [[198985 29] [ 73 277]] y(真实).value_counts(): 0: 1
阅读全文
posted @
2021-02-24 14:49
小小喽啰
阅读(2377)
推荐(0) 编辑
类别特征的编码处理
摘要:其中count encoder,one-hot encoder,label encoder主要针对低基数无序特征,比如性别。可以采用target encoder或者mean encoder的方法来针对高基数无序特征,比如地区,邮编等 一、Label Encoding LabelEncoder() 将
阅读全文
posted @
2021-02-02 09:55
小小喽啰
阅读(1795)
推荐(0) 编辑
归一化、标准化 & 正则化
摘要:我们经常将归一化和标准化弄混淆,下面简单描述一下他们之间的差异 归一化(Normalization) 归一化的目标是找到某种映射关系,将原数据映射到[a,b]区间上。一般a,b会取[−1,1],[0,1]这些组合 一般有两种应用场景: 把数变为(0, 1)之间的小数 把有量纲的数转化为无量纲的数 常
阅读全文
posted @
2021-01-13 11:45
小小喽啰
阅读(1781)
推荐(0) 编辑
sklearn.manifold.TSNE可视化高位数据工具
摘要:manifold learning流形学习 多维度数据集非常难于可视化。反而2维或者3维数据很容易通过图表展示数据本身的内部结构,等价的高维绘图就远没有那么直观了。为了实现数据集结构的可视化,数据的维度必须通过某种方式降维。 最简单的降维手段是数据的随机投影。虽然这种方式实现一定程度的数据结构可视化
阅读全文
posted @
2020-12-02 10:20
小小喽啰
阅读(3367)
推荐(0) 编辑
机器学习4个常用超参数调试方法
摘要:ML工作流中最困难的部分之一是为模型找到最好的超参数。ML模型的性能与超参数直接相关。超参数调优的越好,得到的模型就越好。调优超参数可能是非常乏味和困难的,更像是一门艺术而不是科学。 超参数 超参数是在建立模型时用于控制算法行为的参数。这些参数不能从常规训练过程中获得。在对模型进行训练之前,需要对它
阅读全文
posted @
2020-09-23 18:53
小小喽啰
阅读(2437)
推荐(0) 编辑
sklearn.preprocessing.PolynomialFeatures 生成多项式和交互特征
摘要:sklearn.preprocessing.PolynomialFeatures 生成多项式和交互特征。生成由度小于或等于指定度的特征的所有多项式组合组成的新特征矩阵。例如,如果输入样本是二维且格式为[a,b],则2阶多项式特征为[1,a,b,a ^ 2,ab,b ^ 2] class sklear
阅读全文
posted @
2020-09-22 18:28
小小喽啰
阅读(1033)
推荐(1) 编辑
sklearn.feature_selection.SelectKBest k 个最高分的特征
摘要:sklearn.feature_selection.SelectKBest 根据某中检验方法,比如chi2 啦,选择k个最高分数的特征,属于单变量特征选择的一种,可以看做是一个估计器的预处理步骤 官网地址:https://scikit-learn.org/stable/modules/generat
阅读全文
posted @
2020-09-14 14:48
小小喽啰
阅读(1899)
推荐(0) 编辑
嵌套交叉验证
摘要:嵌套交叉验证(nested cross validation)选择算法(外循环通过k折等进行参数优化,内循环使用交叉验证),对特定数据集进行模型选择。Varma和Simon在论文Bias in Error Estimation When Using Cross-validation for Mode
阅读全文
posted @
2020-09-09 11:00
小小喽啰
阅读(3087)
推荐(1) 编辑
sklearn.model_selection.RandomizedSearchCV随机搜索超参数
摘要:GridSearchCV可以保证在指定的参数范围内找到精度最高的参数,但是这也是网格搜索的缺陷所在,它要求遍历所有可能参数的组合,在面对大数据集和多参数的情况下,非常耗时。这也是我通常不会使用GridSearchCV的原因,一般会采用后一种RandomizedSearchCV随机参数搜索的方法 Ra
阅读全文
posted @
2020-09-08 18:58
小小喽啰
阅读(4167)
推荐(0) 编辑
网格搜索的两个用法
摘要:1.两层for循环暴力检索 # naive grid search implementation from sklearn.datasets import load_iris from sklearn.svm import SVC from sklearn.model_selection impor
阅读全文
posted @
2020-09-08 17:48
小小喽啰
阅读(550)
推荐(0) 编辑
sklearn.model_selection.validation_curve 验证曲线
摘要:验证曲线是用来提高模型的性能,验证曲线和学习曲线很相近,不同的是这里画出的是不同参数下模型的准确率而不是不同训练集大小下的准确率,主要用来调参,validation_curve方法使用采样k折交叉验证来评估模型的性能。 sklearn.model_selection.validation_curve
阅读全文
posted @
2020-09-08 16:52
小小喽啰
阅读(1186)
推荐(0) 编辑
sklearn.model_selection.learning_curve学习曲线
摘要:这个函数的作用为:对于不同大小的训练集,确定交叉验证训练和测试的分数。一个交叉验证发生器将整个数据集分割k次,分割成训练集和测试集。不同大小的训练集的子集将会被用来训练评估器并且对于每一个大小的训练子集都会产生一个分数,然后测试集的分数也会计算。然后,对于每一个训练子集,运行k次之后的所有这些分数将
阅读全文
posted @
2020-09-08 16:46
小小喽啰
阅读(1264)
推荐(0) 编辑
sklearn.pipeline.Pipeline管道简化工作流
摘要:Pipeline可以将许多算法模型串联起来,比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流 Pipeline对象接收元组构成的列表作为输入,每个元组第一个值作为变量名,元组第二个元素是sklearn中的transformer或Estimator。管道中间每一步由sklearn
阅读全文
posted @
2020-09-08 15:47
小小喽啰
阅读(328)
推荐(0) 编辑
sklearn.decomposition.PCA 主成分分析参数详解
摘要:官网:https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html 官网语法如下: class sklearn.decomposition.PCA(n_components=None, *, copy
阅读全文
posted @
2020-09-07 17:01
小小喽啰
阅读(4916)
推荐(1) 编辑
建模常用的自定义函数(ks,auc等)
摘要:1.统计拆分训练集测试集之后的分布 def summary(data_train, data_test, y): ''' 函数目标:统计数据拆分训练集和测试集之后的分布(如样本数量,坏账率之类的) 变量: data_train:训练集(包括label) data_test:测试集(包括label),
阅读全文
posted @
2020-09-03 17:43
小小喽啰
阅读(1161)
推荐(0) 编辑
sklearn.feature_selection.VarianceThreshold 方差阈值法(过滤法的一种)
摘要:sklearn.feature_selection.VarianceThreshold 方差阈值法,用于特征选择,过滤器法的一种,去掉那些方差没有达到阈值的特征。默认情况下,删除零方差的特征 函数用法: class sklearn.feature_selection.VarianceThreshol
阅读全文
posted @
2020-08-31 14:39
小小喽啰
阅读(5186)
推荐(0) 编辑