// // // //

随笔分类 -  AI机器学习

 
LDA 线性判别分析
摘要:线性判别分析,简称LDA,是一种线性学习方法。 常用来降维,是一种有监督的降维方法,是基于最佳分类效果的降维方法。 核心思想 给定训练样本,带label,设法将样本投影到一条直线上,使得同类样例的投影尽可能接近,异类样例的投影尽可能远离; 在对新样本进行预测时,先将其投影到这条直线上,再根据投影点的 阅读全文
posted @ 2019-04-20 11:05 努力的孔子 阅读(1212) 评论(0) 推荐(0) 编辑
分类 - 模型评估
摘要:对模型进行评估时,可以选择很多种指标,但不同的指标可能得到不同的结果,如何选择合适的指标,需要取决于任务需求。 正确率与错误率 正确率:正确分类的样本数/总样本数,accuracy 错误率:错误分类的样本数/总样本数,error 正确率+错误率=1 这两种指标最简单,也最常用 缺点 1. 不一定能反 阅读全文
posted @ 2019-04-19 16:44 努力的孔子 阅读(1674) 评论(0) 推荐(0) 编辑
特征选择
摘要:特征选择顾名思义就是从众多特征中选出和目标相关的特征,它是机器学习中很重要的一个环节。 子集选择与评价 从众多特征中选出部分特征构成特征的一个子集,就叫子集选择, 子集特征是否能很好地表征目标,需要对子集特征进行评价。 子集选择可以有前向搜索、后向搜索和双向搜索三种方式。 前向搜索 假定给定特征集{ 阅读全文
posted @ 2019-04-18 18:58 努力的孔子 阅读(850) 评论(0) 推荐(0) 编辑
集成学习-Adaboost 参数选择
摘要:先看下ababoost和决策树效果对比 输出学习曲线 分析:随着样本数的增加,单决策树的预测精度稳定在0.5左右,是个弱分类器,而adaboost预测精度在0.85左右,明显高于单决策树,是个强分类器。 参数选择 上面的模型使用的是默认参数,其实还有优化的空间。 在集成学习中,参数调优一般是先选择框 阅读全文
posted @ 2019-04-18 11:47 努力的孔子 阅读(3708) 评论(0) 推荐(0) 编辑
集成学习-Adaboost
摘要:Adaboost 中文名叫自适应提升算法,是一种boosting算法。 boosting算法的基本思想 对于一个复杂任务来说,单个专家的决策过于片面,需要集合多个专家的决策得到最终的决策,通俗讲就是三个臭皮匠顶个诸葛亮。 对于给定的数据集,学习到一个较弱的分类器比学习到一个强分类器容易的多,boos 阅读全文
posted @ 2019-04-18 10:19 努力的孔子 阅读(1090) 评论(0) 推荐(0) 编辑
数据编码
摘要:把文本型、字符型数据转换成数值型的方法 标签编码(LabelEncode) 从名字上看,这是对标签进行编码,实际上可以对任何数据进行编码 作法很简单,就是将序列中不同值给个序号,以代表这个字符型数据。 示例代码 from sklearn.preprocessing import LabelEncod 阅读全文
posted @ 2019-04-15 11:55 努力的孔子 阅读(1383) 评论(0) 推荐(0) 编辑
缺失值处理
摘要:缺失值几种处理方式:不处理,删除,插值,前两种没什么说的,说说插值吧。 插值有多种方式 1. 均值、中位数、众数、固定值、插值 2. 邻近插值 3. 回归方法插值:曲线拟合 4. 插值法:专门插值的方法,如拉格朗日插值法,牛顿插值法,分段插值,样条插值等 回归是有误差的插值,,插值法是没有误差的插值 阅读全文
posted @ 2019-04-15 09:50 努力的孔子 阅读(1238) 评论(0) 推荐(0) 编辑
数据规范化
摘要:数据规范化就是消除量纲的影响,这点很重要。 对算法的作用 在以梯度和矩阵为核心的算法中,譬如逻辑回归、神经网络、svm,规范化能加快求解速度, 在以距离计算为核心的算法中,譬如KNN、Kmeans,规范化能提高模型的精度, 在树模型中,无需规范化。 概述 数据规范化有很多种方法,总体可以分为线性的和 阅读全文
posted @ 2019-04-13 16:53 努力的孔子 阅读(2175) 评论(0) 推荐(0) 编辑
类别不均衡
摘要:类别不均衡问题就是不同类别的样本数差别很大,很容易理解,不再赘述。 这种情况会导致模型的误判,比如2分类,正例998,反例2,那么即使我们所有的样本都识别为正例,正确率高达99.8%,然而并没有什么卵用。 对于类别不均衡问题,大体上主要有两种,即以数据为中心驱动和以算法为中心的解决方案。 数据策略 阅读全文
posted @ 2019-04-11 17:03 努力的孔子 阅读(518) 评论(0) 推荐(0) 编辑
参数优化-学习曲线
摘要:验证曲线是调节学习器的参数的,学习曲线是用来调节训练样本大小的。 从理论上来讲,如果数据“同质”,当数据量到达一定程度时,学习器可以学到所有的“特征”,继续增加样本没有作用。 那么到底多少样本是合适的呢? 做个实验 逐渐增大训练样本量,同时判断训练集和测试集的准确率,看看会发生什么 1. 首先从训练 阅读全文
posted @ 2019-04-11 11:57 努力的孔子 阅读(734) 评论(0) 推荐(0) 编辑
参数优化-验证曲线
摘要:通过验证一个学习器在训练集和测试集上的表现,来确定模型是否合适,参数是否合适。 如果训练集和测试集得分都很低,说明学习器不合适。 如果训练集得分高,测试集得分低,模型过拟合,训练集得分低,测试集得分高,不太可能。 示例代码 输出 参数gamma的调节 很小时,训练集和测试集得分都低,欠拟合 增大时, 阅读全文
posted @ 2019-04-11 11:32 努力的孔子 阅读(595) 评论(0) 推荐(0) 编辑
参数优化-API
摘要:网格搜索 对给定参数进行组合,用某标准进行评价,只适合小数据集 参数 estimator:一个学习器对象,它必须有.fit方法用于学习,.predict方法用于预测,.score方法用于评分 param_grid:字典或者字典的列表,每个字典是学习器的一个参数,key是参数名,value是备选参数序 阅读全文
posted @ 2019-04-11 10:54 努力的孔子 阅读(502) 评论(0) 推荐(0) 编辑
参数优化-偏差与方差
摘要:我们知道训练模型时经常会有一些误差,我们要想弥补这些误差,首先要搞清楚这些误差是怎么产生的。 误差的分解 假设我们要预测的模型为 y=f(x),但是通常数据都会有一些噪音,我们的数据集为y=f(x)+noise,通常我们会假设数据服从正态分布,也就是噪音会均分分布在曲线两侧,所以噪音和为0。 假设有 阅读全文
posted @ 2019-04-11 10:51 努力的孔子 阅读(846) 评论(0) 推荐(0) 编辑
决策树-回归
摘要:决策树常用于分类问题,但是也能解决回归问题。 在回归问题中,决策树只能使用cart决策树,而cart决策树,既可以分类,也可以回归。 所以我们说的回归树就是指cart树。 为什么只能是cart树 1. 回想下id3,分裂后需要计算每个类别占总样本的比例,回归哪来的类别,c4.5也一样 2. 回归问题 阅读全文
posted @ 2019-04-07 18:45 努力的孔子 阅读(2559) 评论(0) 推荐(0) 编辑
集成学习-xgboost
摘要:xgboost是个准确率很高的集成学习框架,在很多比赛中成绩优异。 大多数的集成学习都使用决策树作为基分类器,主要是因为本身要训练多个分类器,而决策树速度很快,总体时间相对较少。 决策树 在讲xgboost之前,先描述一下决策树,后面要用到这些符号 决策树是把输入x映射到一个叶节点中,这个过程我们记 阅读全文
posted @ 2019-04-04 14:38 努力的孔子 阅读(1843) 评论(0) 推荐(0) 编辑
softmax与多分类
摘要:sotfmax 函数在机器学习和深度学习中有着广泛的应用, 主要用于多分类问题。 softmax 函数 1. 定义 假定数组V,那么第i个元素的softmax值为 也就是该元素的指数 除以 所有元素的指数和,取指数是为了使差别更大。 于是该数组的每个元素被压缩到(0,1),并且和为1,其实就变成了概 阅读全文
posted @ 2019-03-01 20:57 努力的孔子 阅读(12890) 评论(0) 推荐(0) 编辑
决策树-缺失值处理
摘要:缺失值算是决策树里处理起来比较麻烦的了,其他简单的我就不发布了。 阅读全文
posted @ 2019-02-28 17:50 努力的孔子 阅读(1953) 评论(0) 推荐(0) 编辑

 

点击右上角即可分享
微信分享提示