摘要: 一般来说 adaboost算法包括三步: 1 初始化训练数据的权值,对于有N个样本的数据集,所有样本的初始权值都是1/N 2 训练弱分类器,将前一个弱分类器错误分类的样本的权值加大,减小被正确分类的样本的权值,这样下一个弱分类器就会重新重视被误分类的样本 3 弱分类器组合成强分类器,减小分类误差率大 阅读全文
posted @ 2017-05-04 21:45 semen 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 朴素贝叶斯的基本思想:对于给出的待分类项,在给出待分类项的条件下求出各个类别出现的概率,哪个类别的概率大,该分类项就属于该类别 算法描述: (1) 设样本x=(a1,a2,...an) ai为特征的取值 (2) 类别集合C={c1,c3,...ck) 表示有k个类别 (3) 计算p(c1|x),p( 阅读全文
posted @ 2017-05-04 20:05 semen 阅读(144) 评论(0) 推荐(0) 编辑
摘要: KNN算法的核心思想:如果一个样本在特征空间中的k个最邻近的样本大多数属于某一类别,则该样本也属于该类别 KNN算法的结果很大程度上取决于K的取值,下面进行说明: 如果k=5 则上图中的红点属于三角形所属类,因为三角形所属类占3/5,而四边形类只占了2/5,如果k=11,则红点属于四边形类,四边形类 阅读全文
posted @ 2017-05-04 17:39 semen 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 预备知识: 信息熵:信息量的期望,反映随机变量的不确定性 H(X)=-∑x->Xp(x)log(p(x)) 通俗的理解信息熵 设类别C={c1,c2,...ck) 记分类标记ck的样本数为|ck|,样本为D,样本总数|D| H(D)=-∑|ck|/|D|log(|ck|/|D|) 其中k为类别标记数 阅读全文
posted @ 2017-05-04 16:19 semen 阅读(190) 评论(0) 推荐(0) 编辑