随笔分类 -  统计学习笔记

聚类算法相关
摘要:Bisecting KMeans Bisecting KMeans算法的主要思想是:首先将所有点作为一个簇,然后将该簇一分为二,之后选择能最大限度降低聚类代价函数(也就是误差平方和)的簇划分为两个簇,以此进行下去,直到簇的数目等于用户给定的数目k为止。 Gaussian Mixture Model 阅读全文

posted @ 2018-08-02 00:04 潇洒的麦兜 阅读(104) 评论(0) 推荐(0) 编辑

梯度提升算法和随机森林算法思想
摘要:在天池或者kaggle的比赛中,xgboost算法算是一大杀器,但在学习xgboost前先对gbdt和rf得有一个了解: GBDT思想:先用一个初始值来学习一棵决策树,叶子处可以得到预测的值,以及预测之后的残差,然后后面的决策树就要基于前面决策树的残差来学习,直到预测值和真实值的残差为零。最后对于测 阅读全文

posted @ 2017-07-14 10:08 潇洒的麦兜 阅读(2585) 评论(0) 推荐(0) 编辑

统计学习笔记之提升方法
摘要:提升方法的基本思想是由多个弱学习算法出发,反复学习,得到一系列的弱分类器,然后组合这些弱分类器,构成一个强分类器。思考一下,最开始得到的弱分类器其实是误分类较高的分类器,那么为了得到下一个分类器,就必须使被误分类的数据权重增大,被正确分类的数据的权重减小,才会使得一系列的弱分类器组合后的准确度越来越 阅读全文

posted @ 2017-06-05 16:23 潇洒的麦兜 阅读(161) 评论(0) 推荐(0) 编辑

统计学习笔记之支持向量机
摘要:支持向量机(SVM)是一种二分类模型,跟之前介绍的感知机有联系但也有区别。简单来讲,感知机仅仅是找到了一个平面分离正负类的点,意味着它是没有任何约束性质的,可以有无穷多个解,但是(线性可分)支持向量机和感知机的区别在于,支持向量机有一个约束条件,即利用间隔最大化求最优分离超平面,这时,支持向量机的解 阅读全文

posted @ 2017-06-02 22:03 潇洒的麦兜 阅读(472) 评论(0) 推荐(0) 编辑

统计学习笔记之逻辑回归
摘要:在分类的问题中,要预测的变量y经常是离散的,如需要预测是正确还是错误,这是一种最基本的二分类。当然,逻辑回归也可以进行多分类,有一种简单的方法是,将其中一类标记为正类,剩余类标记为负类,可以得到正类,再讲另外一个类标记为正类,重复进行既可得到多分类的结果。 LR的常规步骤: 1.寻找假设函数 2.构 阅读全文

posted @ 2017-05-23 10:33 潇洒的麦兜 阅读(222) 评论(0) 推荐(0) 编辑

统计学习笔记之决策树(二)
摘要:1.CART分类树的特征选择 分类问题中,假设有K个类,样本点属于第k类的概率为,则概率分布的基尼指数定义为: 如果,集合D根据特征A是否取某一可能值a被分割成和,在特征A的条件下,集合D的基尼指数定义为: 基尼指数代表了模型的不纯度,基尼指数越小,不纯度越小,特征越好. 2.CART分类树的生成算 阅读全文

posted @ 2017-05-10 10:04 潇洒的麦兜 阅读(279) 评论(0) 推荐(0) 编辑

统计学习笔记之决策树(一)
摘要:决策树是常用的机器学习算法,包括特征选择、决策树的生成以及决策树的剪枝。常用的算法有:ID3、C4.5以及CART。 ID3算法中,特征选择的准则是信息增益,即集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差。 信息增益算法流程: 输入:训练数据集D和特征A; 输出:特征A对数 阅读全文

posted @ 2017-05-09 16:36 潇洒的麦兜 阅读(267) 评论(0) 推荐(0) 编辑

统计学习笔记之朴素贝叶斯法
摘要:1.朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设的分类方法,是典型的生成学习方法;对于给定的训练数据集,首先是基于特征条件独立假设输入/输出的联合概率分布;然后基于模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。 2.先验概率分布: 条件概率分布: 于是就得到了联合概率分布,为两者之 阅读全文

posted @ 2017-05-08 16:54 潇洒的麦兜 阅读(316) 评论(0) 推荐(0) 编辑

统计学习笔记之k近邻法
摘要:1.kNN算法的思想:给定一个训练数据集,对新的输入实例,在训练集中找到与该实例最近邻的k个实例,这k个实例的多数属于某类,就把输入实例分为这个类。 2.算法 (1)根据给定的距离度量,在训练集T中找出与实例x最邻近的k个点,涵盖着k个点的邻域记做; (2)在中根据分类决策规则(如多数表决)决定x的 阅读全文

posted @ 2017-05-05 15:27 潇洒的麦兜 阅读(125) 评论(0) 推荐(0) 编辑

统计学习笔记之感知机
摘要:1.感知机是二分类的线性分类模型,输出为实例的类别,取+1和-1二值。 2.感知机属于判别模型。 判别模型:判别方法由学习决策函数f(x)或者是条件概率分布P(Y|X)作为预测的模型。 生成模型:生成方法由数据联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型。 3.感知机的学 阅读全文

posted @ 2017-05-04 14:17 潇洒的麦兜 阅读(258) 评论(0) 推荐(0) 编辑

导航

< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8
点击右上角即可分享
微信分享提示