// // // //

随笔分类 -  AI机器学习框架-Sklearn

 
树模型的可视化
摘要:准备工作 sklearn 中决策树的可视化需要安装 graphviz 下载安装 graphviz 官网下载地址 http://www.graphviz.org/ 官网经常升级,选择适合自己的版本,我选择版本的下载地址 https://www2.graphviz.org/Packages/stable 阅读全文
posted @ 2021-01-13 21:55 努力的孔子 阅读(546) 评论(0) 推荐(0) 编辑
SKlearn - 模型保存
摘要:sklearn 中 模型保存有两种方式,版本不同,可查看官网,这里只做简单记录 方式一:序列化 序列化 的具体用法请自行研究 >>> from sklearn import svm >>> from sklearn import datasets >>> clf = svm.SVC() >>> X, 阅读全文
posted @ 2020-07-01 08:20 努力的孔子 阅读(4262) 评论(0) 推荐(0) 编辑
SKlearn - ROC and AUC
摘要:ROC、AUC 的理论知识 请参考我的博客 分类模型评估 本文旨在 总结 其在 SKlearn 中的用法 基础用法 先看源码 def roc_curve(y_true, y_score, pos_label=None, sample_weight=None, drop_intermediate=Tr 阅读全文
posted @ 2020-04-13 14:47 努力的孔子 阅读(1543) 评论(0) 推荐(0) 编辑
sklearn-GDBT
摘要:GDBT 可以解决分类和回归问题 回归问题 def __init__(self, loss='ls', learning_rate=0.1, n_estimators=100, subsample=1.0, criterion='friedman_mse', min_samples_split=2, 阅读全文
posted @ 2019-11-11 14:53 努力的孔子 阅读(427) 评论(0) 推荐(0) 编辑
LDA 线性判别分析
摘要:线性判别分析,简称LDA,是一种线性学习方法。 常用来降维,是一种有监督的降维方法,是基于最佳分类效果的降维方法。 核心思想 给定训练样本,带label,设法将样本投影到一条直线上,使得同类样例的投影尽可能接近,异类样例的投影尽可能远离; 在对新样本进行预测时,先将其投影到这条直线上,再根据投影点的 阅读全文
posted @ 2019-04-20 11:05 努力的孔子 阅读(1210) 评论(0) 推荐(0) 编辑
集成学习-Adaboost 参数选择
摘要:先看下ababoost和决策树效果对比 输出学习曲线 分析:随着样本数的增加,单决策树的预测精度稳定在0.5左右,是个弱分类器,而adaboost预测精度在0.85左右,明显高于单决策树,是个强分类器。 参数选择 上面的模型使用的是默认参数,其实还有优化的空间。 在集成学习中,参数调优一般是先选择框 阅读全文
posted @ 2019-04-18 11:47 努力的孔子 阅读(3699) 评论(0) 推荐(0) 编辑
sklearn-adaboost
摘要:sklearn中实现了adaboost分类和回归,即AdaBoostClassifier和AdaBoostRegressor, AdaBoostClassifier 实现了两种方法,即 SAMME 和 SAMME.R AdaBoostRegressor 用的 Adaboost.R2 框架参数 分类与 阅读全文
posted @ 2019-04-18 11:17 努力的孔子 阅读(2566) 评论(0) 推荐(0) 编辑
数据编码
摘要:把文本型、字符型数据转换成数值型的方法 标签编码(LabelEncode) 从名字上看,这是对标签进行编码,实际上可以对任何数据进行编码 作法很简单,就是将序列中不同值给个序号,以代表这个字符型数据。 示例代码 from sklearn.preprocessing import LabelEncod 阅读全文
posted @ 2019-04-15 11:55 努力的孔子 阅读(1382) 评论(0) 推荐(0) 编辑
缺失值处理
摘要:缺失值几种处理方式:不处理,删除,插值,前两种没什么说的,说说插值吧。 插值有多种方式 1. 均值、中位数、众数、固定值、插值 2. 邻近插值 3. 回归方法插值:曲线拟合 4. 插值法:专门插值的方法,如拉格朗日插值法,牛顿插值法,分段插值,样条插值等 回归是有误差的插值,,插值法是没有误差的插值 阅读全文
posted @ 2019-04-15 09:50 努力的孔子 阅读(1237) 评论(0) 推荐(0) 编辑
数据规范化
摘要:数据规范化就是消除量纲的影响,这点很重要。 对算法的作用 在以梯度和矩阵为核心的算法中,譬如逻辑回归、神经网络、svm,规范化能加快求解速度, 在以距离计算为核心的算法中,譬如KNN、Kmeans,规范化能提高模型的精度, 在树模型中,无需规范化。 概述 数据规范化有很多种方法,总体可以分为线性的和 阅读全文
posted @ 2019-04-13 16:53 努力的孔子 阅读(2174) 评论(0) 推荐(0) 编辑
参数优化-学习曲线
摘要:验证曲线是调节学习器的参数的,学习曲线是用来调节训练样本大小的。 从理论上来讲,如果数据“同质”,当数据量到达一定程度时,学习器可以学到所有的“特征”,继续增加样本没有作用。 那么到底多少样本是合适的呢? 做个实验 逐渐增大训练样本量,同时判断训练集和测试集的准确率,看看会发生什么 1. 首先从训练 阅读全文
posted @ 2019-04-11 11:57 努力的孔子 阅读(730) 评论(0) 推荐(0) 编辑
参数优化-验证曲线
摘要:通过验证一个学习器在训练集和测试集上的表现,来确定模型是否合适,参数是否合适。 如果训练集和测试集得分都很低,说明学习器不合适。 如果训练集得分高,测试集得分低,模型过拟合,训练集得分低,测试集得分高,不太可能。 示例代码 输出 参数gamma的调节 很小时,训练集和测试集得分都低,欠拟合 增大时, 阅读全文
posted @ 2019-04-11 11:32 努力的孔子 阅读(593) 评论(0) 推荐(0) 编辑
参数优化-API
摘要:网格搜索 对给定参数进行组合,用某标准进行评价,只适合小数据集 参数 estimator:一个学习器对象,它必须有.fit方法用于学习,.predict方法用于预测,.score方法用于评分 param_grid:字典或者字典的列表,每个字典是学习器的一个参数,key是参数名,value是备选参数序 阅读全文
posted @ 2019-04-11 10:54 努力的孔子 阅读(500) 评论(0) 推荐(0) 编辑

 

点击右上角即可分享
微信分享提示