二的二次方

topK

摘要：最大K个数：当数据量小时：快排和堆排O(Nlog(N))；部分排序(选择or交换)O(N*K) 快排加分治O(N*log(K))；二分查找当数据是整数且重复数比较多时：计数排序；若不是整数，则分区间计数。当数据量大时：1）小根堆：O(N*KlogK)2）分治法：hash成M份数据，取每份数据的前K... 阅读全文

posted @ 2015-07-11 21:20 二的二次方阅读(197) 评论(0) 推荐(0) 编辑

k-means

摘要：初始K个点的选择①凭经验选代表点，根据问题的性质、数据分布，从直观上看来较合理的代表点k。②将全部样本随机分成k类，计算每类重心，把这些重心作为每类的代表点。③按密度大小选代表点：以每个样本作为球心，以d为半径做球形；落在球内的样本数称为该点的密度，并按密度大小排序。首先选密度最大的作为第一个代... 阅读全文

posted @ 2015-07-11 20:51 二的二次方阅读(280) 评论(0) 推荐(0) 编辑

样本失衡会对SVM的影响

摘要：假设正类样本远多于负类1、线性可分的情况假设真实数据集如下：由于负类样本量太少，可能会出现下面这种情况使得分隔超平面偏向负类。严格意义上，这种样本不平衡不是因为样本数量的问题，而是因为边界点发生了变化2、线性不可分的情况源数据以及理想的超平面情况如下：很可能由于负类样本太少出现以下这种情况，超平面偏... 阅读全文

posted @ 2015-07-11 11:12 二的二次方阅读(2802) 评论(0) 推荐(0) 编辑

软间隔分类——SVM

摘要：引入：1、数据线性不可分；2、映射到高维依然不是线性可分3、出现噪声。如图：对原始问题变形得到#2：进行拉格朗日转换：其中α和r是拉格朗日因子，均有不小于0的约束。按照之前的对偶问题的推导方式，先针对w，b最小化，然后再针对α最大化，得到新的对偶问题：求解得到α之后，w仍然按公式给出，阅读全文

posted @ 2015-07-08 15:21 二的二次方阅读(2554) 评论(0) 推荐(0) 编辑

从boost到Adaboost再到GBRT-GBDT-MART

摘要：本文是要配合《统计学习方法》才能看懂的，因为中间有些符号和定义是直接使用书本中的先弄明白以下三个公式：1）Boost（提升法）=加法模型（即基函数的线性组合）+前向分步算法+损失函数2）Adaboost=Boost+损失函数是指数函数（基函数可以任意）3）提升树=Boost+基函数是决策树（损失函数... 阅读全文

posted @ 2015-07-07 10:15 二的二次方阅读(1459) 评论(0) 推荐(0) 编辑

Bagging-Adaboost-RF的粗糙理解

摘要：三种方法都是组合方法，组合方法是使用多个分类器进行投票【构造每个分类器的样本都是通过有放回抽样得到的】1、Bagging（装袋）：k次抽样，训练k次，得到k个模型(分类器)，等权重投票2、Adaboost(提升)：【在样本抽取上做文章，按权取样本，按权投票】 1）k次抽样：每个样本被抽到的机会由其... 阅读全文

posted @ 2015-07-07 09:53 二的二次方阅读(929) 评论(0) 推荐(0) 编辑

关于Adaboost——样本抽样的权值的实际意义

摘要：看这篇文章的前提：已经看了PRML中的Adaboost的算法流程看懂下面的内容必须牢牢记住：Adaboost使用的误差函数是指数误差文章主要目的：理解样本抽样的权值是为什么那样变化的。得出的结论：训练第m个基分类器ym时，样本n的抽样权重是fm-1在样本n上的指数误差当ym将第n个样本... 阅读全文

posted @ 2015-07-05 23:44 二的二次方阅读(1732) 评论(0) 推荐(0) 编辑

公告

导航