摘要: ID3、C4.5生成决策树的算法,当训练数据量很大的时候,建立的决策树模型往往非常复杂,树的深度很大。此时虽然对训练数据拟合得很好,但是其泛化能力即预测新数据的能力并不一定很好,也就是出现了过拟合现象。这个时候我们就需要对决策树进行剪枝处理以简化模型。另外,CART算法也可用于建立回归树。 CART 阅读全文
posted @ 2018-03-28 13:57 allenren 阅读(387) 评论(0) 推荐(0) 编辑
摘要: 决策树概念: 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型:内部节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类。 分类的时候,从根节点开始,对实例的某一个特征进行测试,根据测试结果,将实例分配到其子结点;此时,每一个子结点对应着该特征的一个取 阅读全文
posted @ 2018-03-27 22:28 allenren 阅读(616) 评论(0) 推荐(0) 编辑
摘要: 原理: 存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新的数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相 阅读全文
posted @ 2018-03-27 16:02 allenren 阅读(385) 评论(0) 推荐(0) 编辑
摘要: 内容:线性回归;逻辑回归,应用场景。 一、线性回归 有监督学习,根据学习样本{x->y},学习一个映射f:X->Y(线性相关),输出预测结果y_i。最简单的例子:y=ax+b 重要组成:训练数据集 training set, 学习算法 learning algorithm, 损失函数 loss fu 阅读全文
posted @ 2018-03-25 13:21 allenren 阅读(381) 评论(0) 推荐(0) 编辑
摘要: 复习理解下列知识点: 线性相关和线性无关 基与子空间 特征值与特征向量 矩阵特征分解--对角化问题,PCA(主成分分析)&SVD(奇异值分解) 二次型 阅读全文
posted @ 2018-03-23 16:08 allenren 阅读(550) 评论(0) 推荐(0) 编辑
摘要: 1,导数,偏导,梯度,极限 2,贝叶斯,泊松分布。 3,概率与统计 概率问题:已知全部事件,求某个事件发生的概率 统计问题:采样样本,估计总体。 机器学习与概率统计的关系 训练 统计, 预测 计算概率 1.统计估计的是分布,机器学习训练出来的是模型,模型可能包含了很多分布。 2.训练与预测过程的一个 阅读全文
posted @ 2018-03-22 21:59 allenren 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 机器学习顾名思义,计算机模拟人类学习行为,获取学习规律改善自己。可以应用于数据的预测任务。 人类学习: 外界现象-->认知-->推理判断-->归纳规律 计算机:给定样本数据-->学习规则-->获取数据的规律 -->根据新的数据进行预测 机器学习的对象:学习任务T,训练经验E,预测性能目标P 例子:学 阅读全文
posted @ 2018-03-22 18:23 allenren 阅读(352) 评论(0) 推荐(0) 编辑