AI机器学习框架-Sklearn - 随笔分类 - 努力的孔子

树模型的可视化

摘要：准备工作 sklearn 中决策树的可视化需要安装 graphviz 下载安装 graphviz 官网下载地址 http://www.graphviz.org/ 官网经常升级，选择适合自己的版本，我选择版本的下载地址 https://www2.graphviz.org/Packages/stable 阅读全文

posted @ 2021-01-13 21:55 努力的孔子阅读(613) 评论(0) 推荐(0)

SKlearn - 模型保存

摘要：sklearn 中模型保存有两种方式，版本不同，可查看官网，这里只做简单记录方式一：序列化序列化的具体用法请自行研究 >>> from sklearn import svm >>> from sklearn import datasets >>> clf = svm.SVC() >>> X, 阅读全文

posted @ 2020-07-01 08:20 努力的孔子阅读(4307) 评论(0) 推荐(0)

SKlearn - ROC and AUC

摘要：ROC、AUC 的理论知识请参考我的博客分类模型评估本文旨在总结其在 SKlearn 中的用法基础用法先看源码 def roc_curve(y_true, y_score, pos_label=None, sample_weight=None, drop_intermediate=Tr 阅读全文

posted @ 2020-04-13 14:47 努力的孔子阅读(1628) 评论(0) 推荐(0)

sklearn-GDBT

摘要：GDBT 可以解决分类和回归问题回归问题 def __init__(self, loss='ls', learning_rate=0.1, n_estimators=100, subsample=1.0, criterion='friedman_mse', min_samples_split=2, 阅读全文

posted @ 2019-11-11 14:53 努力的孔子阅读(438) 评论(0) 推荐(0)

LDA 线性判别分析

摘要：线性判别分析，简称LDA，是一种线性学习方法。常用来降维，是一种有监督的降维方法，是基于最佳分类效果的降维方法。核心思想给定训练样本，带label，设法将样本投影到一条直线上，使得同类样例的投影尽可能接近，异类样例的投影尽可能远离；在对新样本进行预测时，先将其投影到这条直线上，再根据投影点的阅读全文

posted @ 2019-04-20 11:05 努力的孔子阅读(1248) 评论(0) 推荐(0)

集成学习-Adaboost 参数选择

摘要：先看下ababoost和决策树效果对比输出学习曲线分析：随着样本数的增加，单决策树的预测精度稳定在0.5左右，是个弱分类器，而adaboost预测精度在0.85左右，明显高于单决策树，是个强分类器。参数选择上面的模型使用的是默认参数，其实还有优化的空间。在集成学习中，参数调优一般是先选择框阅读全文

posted @ 2019-04-18 11:47 努力的孔子阅读(3897) 评论(0) 推荐(0)

sklearn-adaboost

摘要：sklearn中实现了adaboost分类和回归，即AdaBoostClassifier和AdaBoostRegressor， AdaBoostClassifier 实现了两种方法，即 SAMME 和 SAMME.R AdaBoostRegressor 用的 Adaboost.R2 框架参数分类与阅读全文

posted @ 2019-04-18 11:17 努力的孔子阅读(2596) 评论(0) 推荐(0)

数据编码

摘要：把文本型、字符型数据转换成数值型的方法标签编码(LabelEncode) 从名字上看，这是对标签进行编码，实际上可以对任何数据进行编码作法很简单，就是将序列中不同值给个序号，以代表这个字符型数据。示例代码 from sklearn.preprocessing import LabelEncod 阅读全文

posted @ 2019-04-15 11:55 努力的孔子阅读(1424) 评论(0) 推荐(0)

缺失值处理

摘要：缺失值几种处理方式：不处理，删除，插值，前两种没什么说的，说说插值吧。插值有多种方式 1. 均值、中位数、众数、固定值、插值 2. 邻近插值 3. 回归方法插值：曲线拟合 4. 插值法：专门插值的方法，如拉格朗日插值法，牛顿插值法，分段插值，样条插值等回归是有误差的插值，，插值法是没有误差的插值阅读全文

posted @ 2019-04-15 09:50 努力的孔子阅读(1285) 评论(0) 推荐(0)

数据规范化

摘要：数据规范化就是消除量纲的影响，这点很重要。对算法的作用在以梯度和矩阵为核心的算法中，譬如逻辑回归、神经网络、svm，规范化能加快求解速度，在以距离计算为核心的算法中，譬如KNN、Kmeans，规范化能提高模型的精度，在树模型中，无需规范化。概述数据规范化有很多种方法，总体可以分为线性的和阅读全文

posted @ 2019-04-13 16:53 努力的孔子阅读(2257) 评论(0) 推荐(0)

参数优化-学习曲线

摘要：验证曲线是调节学习器的参数的，学习曲线是用来调节训练样本大小的。从理论上来讲，如果数据“同质”，当数据量到达一定程度时，学习器可以学到所有的“特征”，继续增加样本没有作用。那么到底多少样本是合适的呢？做个实验逐渐增大训练样本量，同时判断训练集和测试集的准确率，看看会发生什么 1. 首先从训练阅读全文

posted @ 2019-04-11 11:57 努力的孔子阅读(789) 评论(0) 推荐(0)

参数优化-验证曲线

摘要：通过验证一个学习器在训练集和测试集上的表现，来确定模型是否合适，参数是否合适。如果训练集和测试集得分都很低，说明学习器不合适。如果训练集得分高，测试集得分低，模型过拟合，训练集得分低，测试集得分高，不太可能。示例代码输出参数gamma的调节很小时，训练集和测试集得分都低，欠拟合增大时，阅读全文

posted @ 2019-04-11 11:32 努力的孔子阅读(626) 评论(0) 推荐(0)

参数优化-API

摘要：网格搜索对给定参数进行组合，用某标准进行评价，只适合小数据集参数 estimator：一个学习器对象，它必须有.fit方法用于学习，.predict方法用于预测，.score方法用于评分 param_grid：字典或者字典的列表，每个字典是学习器的一个参数，key是参数名，value是备选参数序阅读全文

posted @ 2019-04-11 10:54 努力的孔子阅读(565) 评论(0) 推荐(0)

随笔分类 - AI机器学习框架-Sklearn

导航