树模型的可视化
摘要:准备工作 sklearn 中决策树的可视化需要安装 graphviz 下载安装 graphviz 官网下载地址 http://www.graphviz.org/ 官网经常升级,选择适合自己的版本,我选择版本的下载地址 https://www2.graphviz.org/Packages/stable
阅读全文
SKlearn - 模型保存
摘要:sklearn 中 模型保存有两种方式,版本不同,可查看官网,这里只做简单记录 方式一:序列化 序列化 的具体用法请自行研究 >>> from sklearn import svm >>> from sklearn import datasets >>> clf = svm.SVC() >>> X,
阅读全文
SKlearn - ROC and AUC
摘要:ROC、AUC 的理论知识 请参考我的博客 分类模型评估 本文旨在 总结 其在 SKlearn 中的用法 基础用法 先看源码 def roc_curve(y_true, y_score, pos_label=None, sample_weight=None, drop_intermediate=Tr
阅读全文
sklearn-GDBT
摘要:GDBT 可以解决分类和回归问题 回归问题 def __init__(self, loss='ls', learning_rate=0.1, n_estimators=100, subsample=1.0, criterion='friedman_mse', min_samples_split=2,
阅读全文
LDA 线性判别分析
摘要:线性判别分析,简称LDA,是一种线性学习方法。 常用来降维,是一种有监督的降维方法,是基于最佳分类效果的降维方法。 核心思想 给定训练样本,带label,设法将样本投影到一条直线上,使得同类样例的投影尽可能接近,异类样例的投影尽可能远离; 在对新样本进行预测时,先将其投影到这条直线上,再根据投影点的
阅读全文
集成学习-Adaboost 参数选择
摘要:先看下ababoost和决策树效果对比 输出学习曲线 分析:随着样本数的增加,单决策树的预测精度稳定在0.5左右,是个弱分类器,而adaboost预测精度在0.85左右,明显高于单决策树,是个强分类器。 参数选择 上面的模型使用的是默认参数,其实还有优化的空间。 在集成学习中,参数调优一般是先选择框
阅读全文
sklearn-adaboost
摘要:sklearn中实现了adaboost分类和回归,即AdaBoostClassifier和AdaBoostRegressor, AdaBoostClassifier 实现了两种方法,即 SAMME 和 SAMME.R AdaBoostRegressor 用的 Adaboost.R2 框架参数 分类与
阅读全文
数据编码
摘要:把文本型、字符型数据转换成数值型的方法 标签编码(LabelEncode) 从名字上看,这是对标签进行编码,实际上可以对任何数据进行编码 作法很简单,就是将序列中不同值给个序号,以代表这个字符型数据。 示例代码 from sklearn.preprocessing import LabelEncod
阅读全文
缺失值处理
摘要:缺失值几种处理方式:不处理,删除,插值,前两种没什么说的,说说插值吧。 插值有多种方式 1. 均值、中位数、众数、固定值、插值 2. 邻近插值 3. 回归方法插值:曲线拟合 4. 插值法:专门插值的方法,如拉格朗日插值法,牛顿插值法,分段插值,样条插值等 回归是有误差的插值,,插值法是没有误差的插值
阅读全文
数据规范化
摘要:数据规范化就是消除量纲的影响,这点很重要。 对算法的作用 在以梯度和矩阵为核心的算法中,譬如逻辑回归、神经网络、svm,规范化能加快求解速度, 在以距离计算为核心的算法中,譬如KNN、Kmeans,规范化能提高模型的精度, 在树模型中,无需规范化。 概述 数据规范化有很多种方法,总体可以分为线性的和
阅读全文
参数优化-学习曲线
摘要:验证曲线是调节学习器的参数的,学习曲线是用来调节训练样本大小的。 从理论上来讲,如果数据“同质”,当数据量到达一定程度时,学习器可以学到所有的“特征”,继续增加样本没有作用。 那么到底多少样本是合适的呢? 做个实验 逐渐增大训练样本量,同时判断训练集和测试集的准确率,看看会发生什么 1. 首先从训练
阅读全文
参数优化-验证曲线
摘要:通过验证一个学习器在训练集和测试集上的表现,来确定模型是否合适,参数是否合适。 如果训练集和测试集得分都很低,说明学习器不合适。 如果训练集得分高,测试集得分低,模型过拟合,训练集得分低,测试集得分高,不太可能。 示例代码 输出 参数gamma的调节 很小时,训练集和测试集得分都低,欠拟合 增大时,
阅读全文
参数优化-API
摘要:网格搜索 对给定参数进行组合,用某标准进行评价,只适合小数据集 参数 estimator:一个学习器对象,它必须有.fit方法用于学习,.predict方法用于预测,.score方法用于评分 param_grid:字典或者字典的列表,每个字典是学习器的一个参数,key是参数名,value是备选参数序
阅读全文