2017年6月5日

统计学习笔记之提升方法

摘要: 提升方法的基本思想是由多个弱学习算法出发,反复学习,得到一系列的弱分类器,然后组合这些弱分类器,构成一个强分类器。思考一下,最开始得到的弱分类器其实是误分类较高的分类器,那么为了得到下一个分类器,就必须使被误分类的数据权重增大,被正确分类的数据的权重减小,才会使得一系列的弱分类器组合后的准确度越来越 阅读全文

posted @ 2017-06-05 16:23 潇洒的麦兜 阅读(159) 评论(0) 推荐(0) 编辑

2017年6月2日

统计学习笔记之支持向量机

摘要: 支持向量机(SVM)是一种二分类模型,跟之前介绍的感知机有联系但也有区别。简单来讲,感知机仅仅是找到了一个平面分离正负类的点,意味着它是没有任何约束性质的,可以有无穷多个解,但是(线性可分)支持向量机和感知机的区别在于,支持向量机有一个约束条件,即利用间隔最大化求最优分离超平面,这时,支持向量机的解 阅读全文

posted @ 2017-06-02 22:03 潇洒的麦兜 阅读(459) 评论(0) 推荐(0) 编辑

2017年5月23日

统计学习笔记之逻辑回归

摘要: 在分类的问题中,要预测的变量y经常是离散的,如需要预测是正确还是错误,这是一种最基本的二分类。当然,逻辑回归也可以进行多分类,有一种简单的方法是,将其中一类标记为正类,剩余类标记为负类,可以得到正类,再讲另外一个类标记为正类,重复进行既可得到多分类的结果。 LR的常规步骤: 1.寻找假设函数 2.构 阅读全文

posted @ 2017-05-23 10:33 潇洒的麦兜 阅读(219) 评论(0) 推荐(0) 编辑

2017年5月18日

raw_input和sys.stdin.readline()

摘要: sys.stdin.readline( )会将标准输入全部获取,包括末尾的'\n',因此用len计算长度时是把换行符'\n'算进去了的; raw_input( )获取输入时返回的结果是不包含末尾的换行符'\n'的。 阅读全文

posted @ 2017-05-18 21:25 潇洒的麦兜 阅读(188) 评论(0) 推荐(0) 编辑

2017年5月10日

统计学习笔记之决策树(二)

摘要: 1.CART分类树的特征选择 分类问题中,假设有K个类,样本点属于第k类的概率为,则概率分布的基尼指数定义为: 如果,集合D根据特征A是否取某一可能值a被分割成和,在特征A的条件下,集合D的基尼指数定义为: 基尼指数代表了模型的不纯度,基尼指数越小,不纯度越小,特征越好. 2.CART分类树的生成算 阅读全文

posted @ 2017-05-10 10:04 潇洒的麦兜 阅读(274) 评论(0) 推荐(0) 编辑

2017年5月9日

统计学习笔记之决策树(一)

摘要: 决策树是常用的机器学习算法,包括特征选择、决策树的生成以及决策树的剪枝。常用的算法有:ID3、C4.5以及CART。 ID3算法中,特征选择的准则是信息增益,即集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差。 信息增益算法流程: 输入:训练数据集D和特征A; 输出:特征A对数 阅读全文

posted @ 2017-05-09 16:36 潇洒的麦兜 阅读(261) 评论(0) 推荐(0) 编辑

2017年5月8日

统计学习笔记之朴素贝叶斯法

摘要: 1.朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设的分类方法,是典型的生成学习方法;对于给定的训练数据集,首先是基于特征条件独立假设输入/输出的联合概率分布;然后基于模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。 2.先验概率分布: 条件概率分布: 于是就得到了联合概率分布,为两者之 阅读全文

posted @ 2017-05-08 16:54 潇洒的麦兜 阅读(310) 评论(0) 推荐(0) 编辑

2017年5月7日

平衡二叉树

摘要: 对序列(49,38,65,97,76,13,27,50)构造平衡二叉树: 步骤在图上已经画出来了,需要说明一点: *当插入76后,49和65的平衡因子都为-2,旋转离76近的,即旋转(65,97,76),并且把中位数放中间。 阅读全文

posted @ 2017-05-07 22:08 潇洒的麦兜 阅读(376) 评论(0) 推荐(0) 编辑

2017年5月5日

统计学习笔记之k近邻法

摘要: 1.kNN算法的思想:给定一个训练数据集,对新的输入实例,在训练集中找到与该实例最近邻的k个实例,这k个实例的多数属于某类,就把输入实例分为这个类。 2.算法 (1)根据给定的距离度量,在训练集T中找出与实例x最邻近的k个点,涵盖着k个点的邻域记做; (2)在中根据分类决策规则(如多数表决)决定x的 阅读全文

posted @ 2017-05-05 15:27 潇洒的麦兜 阅读(123) 评论(0) 推荐(0) 编辑

2017年5月4日

统计学习笔记之感知机

摘要: 1.感知机是二分类的线性分类模型,输出为实例的类别,取+1和-1二值。 2.感知机属于判别模型。 判别模型:判别方法由学习决策函数f(x)或者是条件概率分布P(Y|X)作为预测的模型。 生成模型:生成方法由数据联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型。 3.感知机的学 阅读全文

posted @ 2017-05-04 14:17 潇洒的麦兜 阅读(250) 评论(0) 推荐(0) 编辑

导航