摘要: 决策树 ID3算法 1. 信息论基础 信息论中,熵度量了事务的不确定性,越不确定的事务,它的熵就越大。表示形式如下: $$ H(X)= \sum_{i=1}^np_i\log_2 p_i $$ 多个变量联合熵表示如下: $$ H(X,Y)= \sum_{i=1}^np(x_i,y_i)\log p( 阅读全文
posted @ 2020-05-13 15:45 hi_heisen 阅读(149) 评论(0) 推荐(0) 编辑
摘要: 交叉熵 $$ H(p,q)= \sum\limits_{x}p(x)\log q(x) $$ 它刻画的是通过概率分布q来表达概率分布p的困难程度。交叉熵作为神经网络的损失函数时,p代表正确答案,q代表预测值,它刻画两个概率分布的距离,即交叉熵越小,两个概率分布越近。 或写为 $$ \sum_ip_k 阅读全文
posted @ 2020-05-13 15:44 hi_heisen 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 集成学习 基本思想 集成学习主要思想是:通过构建并结合多个机器学习来完成任务,通过一定的策略将各学习器结合。主要有两类:一类是Boosting,另一类是Bagging Boosting:同质学习器,存在信赖关系,往往是串行的,根据误差调节样本权重,代表AdaBoost和Boost tree; Bag 阅读全文
posted @ 2020-05-13 15:42 hi_heisen 阅读(242) 评论(0) 推荐(0) 编辑
摘要: SVM算法 间隔的定义 在分隔超平面定义为$w^Tx+b=0$时,我们定义点到超平面的距离为$\gamma=\frac{y(x^Tx+b)}{\lVert w\rVert_2}$。 目标函数与优化 定义了点到超平面的距离后,我们的目标就是让所有的点到分隔超平面的距离之各最小,我们定义优化函数如下: 阅读全文
posted @ 2020-05-13 15:40 hi_heisen 阅读(242) 评论(0) 推荐(0) 编辑
摘要: MCMC是(Markov Chain Monte Carlo)缩写,中文马尔科夫链蒙特卡罗。 蒙特卡罗方法 Monte Carlo思想 最早的蒙特卡罗方法是为了求各或积分问题,比如 $$ \theta=\int_a^bf(x)dx $$ 使用蒙特卡罗方法求得积分的近似值。在$[a,b]$区间上随机采 阅读全文
posted @ 2020-05-13 15:39 hi_heisen 阅读(311) 评论(0) 推荐(0) 编辑
摘要: K近邻 KNN KNN算法 KNN是选择距离最近的几个样本,做分类或者回归。分类时,选择多数表决法,回归时,一般选择平均值法。 1. KNN三要素 1)K的选择:可通过交叉验证法寻找合适的K 2)距离度量: 对于两个n维向量x和y,两者的欧式距离、曼哈顿距离和闵可斯基距离定义如下: $$ D(x,y 阅读全文
posted @ 2020-05-13 15:37 hi_heisen 阅读(131) 评论(0) 推荐(0) 编辑
摘要: K Means聚类 K Means算法思想 给定样本集,按照样本之间的距离大小,将样本集分为K个簇,让簇内尽量紧密,让簇间尽量大。 假设簇划分为$C_1,C_2,...,C_k$,则我们的目标是最小化平方误差E $$ E=\sum_{i=1}^k\sum_{x\in C_i}\lVert x \mu 阅读全文
posted @ 2020-05-13 15:35 hi_heisen 阅读(174) 评论(0) 推荐(0) 编辑
摘要: DBSCAN密度聚类 基本原理 DBSCAN是具有噪声的基于密度聚类的方法,可应用于凸样本集,也可应用于非凸样本集。同一类别的样本是紧密相连的。 DBSCAN密度定义 假设样本集$D=(x_1,x_2,...,x_m)$,参数$(\epsilon,MinPts)$用来描述邻域的样本分布紧密程度,其中 阅读全文
posted @ 2020-05-13 15:23 hi_heisen 阅读(149) 评论(0) 推荐(0) 编辑
摘要: Bagging原理 Bagging是n个相互无信赖的弱学习器,通过一定的策略,得到一个强学习器。 随机采样 Bagging一个主要的特点是随机采样,bagging是有放回的采样。 对于一个有m个样本的数据集,每次采集一个样本,被采的概率是$\frac{1}{m}$,不被采的概率是$1 \frac{1 阅读全文
posted @ 2020-05-13 15:22 hi_heisen 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 1 基本概念 支持向量机核心在于寻找分隔超平面,写为$\mathtt{w}^T\mathtt{x}+b$,任意一点到超平面的距离为$\frac{|\mathtt{w}^T\mathtt{A}+b|}{||\mathtt{w}||}$。 以平台上的直线为例,直线$Ax+By+C=0$,点$(x_0,y 阅读全文
posted @ 2020-05-13 15:21 hi_heisen 阅读(153) 评论(0) 推荐(0) 编辑