2017 年 5月 4 日随笔档案 - semen

2017年5月4日

摘要：一般来说 adaboost算法包括三步： 1 初始化训练数据的权值，对于有N个样本的数据集，所有样本的初始权值都是1/N 2 训练弱分类器，将前一个弱分类器错误分类的样本的权值加大，减小被正确分类的样本的权值，这样下一个弱分类器就会重新重视被误分类的样本 3 弱分类器组合成强分类器，减小分类误差率大阅读全文

posted @ 2017-05-04 21:45 semen 阅读(166) 评论(0) 推荐(0) 编辑

朴素贝叶斯

摘要：朴素贝叶斯的基本思想：对于给出的待分类项，在给出待分类项的条件下求出各个类别出现的概率，哪个类别的概率大，该分类项就属于该类别算法描述： (1) 设样本x=(a1,a2,...an) ai为特征的取值 (2) 类别集合C={c1,c3,...ck) 表示有k个类别 (3) 计算p(c1|x),p( 阅读全文

posted @ 2017-05-04 20:05 semen 阅读(144) 评论(0) 推荐(0) 编辑

KNN算法

摘要： KNN算法的核心思想：如果一个样本在特征空间中的k个最邻近的样本大多数属于某一类别，则该样本也属于该类别 KNN算法的结果很大程度上取决于K的取值，下面进行说明：如果k=5 则上图中的红点属于三角形所属类，因为三角形所属类占3/5，而四边形类只占了2/5，如果k=11,则红点属于四边形类，四边形类阅读全文

posted @ 2017-05-04 17:39 semen 阅读(194) 评论(0) 推荐(0) 编辑

决策树

摘要：预备知识：信息熵：信息量的期望，反映随机变量的不确定性 H(X)=-∑x->Xp(x)log(p(x)) 通俗的理解信息熵设类别C={c1,c2,...ck) 记分类标记ck的样本数为|ck|,样本为D,样本总数|D| H(D)=-∑|ck|/|D|log(|ck|/|D|) 其中k为类别标记数阅读全文

posted @ 2017-05-04 16:19 semen 阅读(190) 评论(0) 推荐(0) 编辑

semen

公告