摘要:
KD树算法是先对数据集进行建模,然后搜索最近邻,最后一步是预测。 KD树中的K指的是样本特征的维数。 一、KD树的建立 m个样本n维特征,计算n个特征的方差,取方差最大的第k维特征作为根节点。选择第k维特征的中位数作为切分点,小于中位数的放左子树,大于中位数的放右子树,递归生成。 举例 有二维样本6 阅读全文
摘要:
一、原理 选择距离测试样本最近的k个样本,出现频数最大的样本的类别就是该测试样本的类别。 二、优缺点 它的特点是完全跟着数据走,没有数学模型可言。 优点:简单、快速、易于实现; 缺点:计算量大,数据不平衡时预测偏差比较大; 三、不平衡问题怎么解决? 数据不平衡时,距离测试样本最近的k个样本中,可能大 阅读全文
摘要:
一、原理 就是在样本空间中找到一个最佳的超平面使得正负样本间隔最大。SVM是二分类问题,引入核函数后就可以解决非线性问题。 二、为什么采用间隔最大化 因为可能存在多个超平面能够将正负样本分开,利用间隔最大化得到的超平面是唯一的,泛化能力最强。 三、为什么要转化为对偶问题? 1、通过约束条件进行求解, 阅读全文