AI机器学习 - 随笔分类(第3页) - 努力的孔子

LDA 线性判别分析

摘要：线性判别分析，简称LDA，是一种线性学习方法。常用来降维，是一种有监督的降维方法，是基于最佳分类效果的降维方法。核心思想给定训练样本，带label，设法将样本投影到一条直线上，使得同类样例的投影尽可能接近，异类样例的投影尽可能远离；在对新样本进行预测时，先将其投影到这条直线上，再根据投影点的阅读全文

posted @ 2019-04-20 11:05 努力的孔子阅读(1212) 评论(0) 推荐(0) 编辑

分类 - 模型评估

摘要：对模型进行评估时，可以选择很多种指标，但不同的指标可能得到不同的结果，如何选择合适的指标，需要取决于任务需求。正确率与错误率正确率：正确分类的样本数/总样本数，accuracy 错误率：错误分类的样本数/总样本数，error 正确率+错误率=1 这两种指标最简单，也最常用缺点 1. 不一定能反阅读全文

posted @ 2019-04-19 16:44 努力的孔子阅读(1674) 评论(0) 推荐(0) 编辑

特征选择

摘要：特征选择顾名思义就是从众多特征中选出和目标相关的特征，它是机器学习中很重要的一个环节。子集选择与评价从众多特征中选出部分特征构成特征的一个子集，就叫子集选择，子集特征是否能很好地表征目标，需要对子集特征进行评价。子集选择可以有前向搜索、后向搜索和双向搜索三种方式。前向搜索假定给定特征集{ 阅读全文

posted @ 2019-04-18 18:58 努力的孔子阅读(850) 评论(0) 推荐(0) 编辑

集成学习-Adaboost 参数选择

摘要：先看下ababoost和决策树效果对比输出学习曲线分析：随着样本数的增加，单决策树的预测精度稳定在0.5左右，是个弱分类器，而adaboost预测精度在0.85左右，明显高于单决策树，是个强分类器。参数选择上面的模型使用的是默认参数，其实还有优化的空间。在集成学习中，参数调优一般是先选择框阅读全文

posted @ 2019-04-18 11:47 努力的孔子阅读(3708) 评论(0) 推荐(0) 编辑

集成学习-Adaboost

摘要：Adaboost 中文名叫自适应提升算法，是一种boosting算法。 boosting算法的基本思想对于一个复杂任务来说，单个专家的决策过于片面，需要集合多个专家的决策得到最终的决策，通俗讲就是三个臭皮匠顶个诸葛亮。对于给定的数据集，学习到一个较弱的分类器比学习到一个强分类器容易的多，boos 阅读全文

posted @ 2019-04-18 10:19 努力的孔子阅读(1090) 评论(0) 推荐(0) 编辑

数据编码

摘要：把文本型、字符型数据转换成数值型的方法标签编码(LabelEncode) 从名字上看，这是对标签进行编码，实际上可以对任何数据进行编码作法很简单，就是将序列中不同值给个序号，以代表这个字符型数据。示例代码 from sklearn.preprocessing import LabelEncod 阅读全文

posted @ 2019-04-15 11:55 努力的孔子阅读(1383) 评论(0) 推荐(0) 编辑

缺失值处理

摘要：缺失值几种处理方式：不处理，删除，插值，前两种没什么说的，说说插值吧。插值有多种方式 1. 均值、中位数、众数、固定值、插值 2. 邻近插值 3. 回归方法插值：曲线拟合 4. 插值法：专门插值的方法，如拉格朗日插值法，牛顿插值法，分段插值，样条插值等回归是有误差的插值，，插值法是没有误差的插值阅读全文

posted @ 2019-04-15 09:50 努力的孔子阅读(1238) 评论(0) 推荐(0) 编辑

数据规范化

摘要：数据规范化就是消除量纲的影响，这点很重要。对算法的作用在以梯度和矩阵为核心的算法中，譬如逻辑回归、神经网络、svm，规范化能加快求解速度，在以距离计算为核心的算法中，譬如KNN、Kmeans，规范化能提高模型的精度，在树模型中，无需规范化。概述数据规范化有很多种方法，总体可以分为线性的和阅读全文

posted @ 2019-04-13 16:53 努力的孔子阅读(2175) 评论(0) 推荐(0) 编辑

类别不均衡

摘要：类别不均衡问题就是不同类别的样本数差别很大，很容易理解，不再赘述。这种情况会导致模型的误判，比如2分类，正例998，反例2，那么即使我们所有的样本都识别为正例，正确率高达99.8%，然而并没有什么卵用。对于类别不均衡问题，大体上主要有两种，即以数据为中心驱动和以算法为中心的解决方案。数据策略阅读全文

posted @ 2019-04-11 17:03 努力的孔子阅读(518) 评论(0) 推荐(0) 编辑

参数优化-学习曲线

摘要：验证曲线是调节学习器的参数的，学习曲线是用来调节训练样本大小的。从理论上来讲，如果数据“同质”，当数据量到达一定程度时，学习器可以学到所有的“特征”，继续增加样本没有作用。那么到底多少样本是合适的呢？做个实验逐渐增大训练样本量，同时判断训练集和测试集的准确率，看看会发生什么 1. 首先从训练阅读全文

posted @ 2019-04-11 11:57 努力的孔子阅读(734) 评论(0) 推荐(0) 编辑

参数优化-验证曲线

摘要：通过验证一个学习器在训练集和测试集上的表现，来确定模型是否合适，参数是否合适。如果训练集和测试集得分都很低，说明学习器不合适。如果训练集得分高，测试集得分低，模型过拟合，训练集得分低，测试集得分高，不太可能。示例代码输出参数gamma的调节很小时，训练集和测试集得分都低，欠拟合增大时，阅读全文

posted @ 2019-04-11 11:32 努力的孔子阅读(595) 评论(0) 推荐(0) 编辑

参数优化-API

摘要：网格搜索对给定参数进行组合，用某标准进行评价，只适合小数据集参数 estimator：一个学习器对象，它必须有.fit方法用于学习，.predict方法用于预测，.score方法用于评分 param_grid：字典或者字典的列表，每个字典是学习器的一个参数，key是参数名，value是备选参数序阅读全文

posted @ 2019-04-11 10:54 努力的孔子阅读(502) 评论(0) 推荐(0) 编辑

参数优化-偏差与方差

摘要：我们知道训练模型时经常会有一些误差，我们要想弥补这些误差，首先要搞清楚这些误差是怎么产生的。误差的分解假设我们要预测的模型为 y=f(x)，但是通常数据都会有一些噪音，我们的数据集为y=f(x)+noise，通常我们会假设数据服从正态分布，也就是噪音会均分分布在曲线两侧，所以噪音和为0。假设有阅读全文

posted @ 2019-04-11 10:51 努力的孔子阅读(846) 评论(0) 推荐(0) 编辑

决策树-回归

摘要：决策树常用于分类问题，但是也能解决回归问题。在回归问题中，决策树只能使用cart决策树，而cart决策树，既可以分类，也可以回归。所以我们说的回归树就是指cart树。为什么只能是cart树 1. 回想下id3，分裂后需要计算每个类别占总样本的比例，回归哪来的类别，c4.5也一样 2. 回归问题阅读全文

posted @ 2019-04-07 18:45 努力的孔子阅读(2559) 评论(0) 推荐(0) 编辑

集成学习-xgboost

摘要：xgboost是个准确率很高的集成学习框架，在很多比赛中成绩优异。大多数的集成学习都使用决策树作为基分类器，主要是因为本身要训练多个分类器，而决策树速度很快，总体时间相对较少。决策树在讲xgboost之前，先描述一下决策树，后面要用到这些符号决策树是把输入x映射到一个叶节点中，这个过程我们记阅读全文

posted @ 2019-04-04 14:38 努力的孔子阅读(1843) 评论(0) 推荐(0) 编辑

softmax与多分类

摘要：sotfmax 函数在机器学习和深度学习中有着广泛的应用，主要用于多分类问题。 softmax 函数 1. 定义假定数组V，那么第i个元素的softmax值为也就是该元素的指数除以所有元素的指数和，取指数是为了使差别更大。于是该数组的每个元素被压缩到(0,1)，并且和为1，其实就变成了概阅读全文

posted @ 2019-03-01 20:57 努力的孔子阅读(12890) 评论(0) 推荐(0) 编辑

决策树-缺失值处理

摘要：缺失值算是决策树里处理起来比较麻烦的了，其他简单的我就不发布了。阅读全文

posted @ 2019-02-28 17:50 努力的孔子阅读(1953) 评论(0) 推荐(0) 编辑

随笔分类 - AI机器学习

导航

统计

搜索

随笔分类