摘要: 1. 决策树 一般的,一棵决策树包含一个根结点、若干内部结点和若干叶子结点,叶子节点对应决策结果,其他每个结点对应一个属性测试,每个结点包含的样本集合根据属性测试结果被划分到子结点中,而根结点包含样本全集,从根结点到每个叶子结点的路径对应了一个判定测试序列。其基本流程如下所示: 所以,决策树的生成是 阅读全文
posted @ 2018-11-28 17:15 KHBK 阅读(579) 评论(0) 推荐(0) 编辑
摘要: 1. 线性模型 基本形式:给定由d个属性描述的样本 x = (x1; x2; ......; xd),其中,xi是x在第i个属性上的取值,则有: f(x) = w1x1 + w2x2 + ...... + wdxd + b 令w=(w1; w2; ......; wd),x = (x1; x2; . 阅读全文
posted @ 2018-11-27 15:17 KHBK 阅读(339) 评论(0) 推荐(0) 编辑
摘要: 1. 均方误差,错误率,精度 给定样例集 (Example set): D = {(x1, y1), (x2, y2), (x3, y3), ......, (xm, ym)} 其中xi是对应属性的值,yi是xi的真实标记,评估模型性能,即将预测结果f(x)与真实标记y进行比较。 对于回归任务:均方 阅读全文
posted @ 2018-11-26 22:14 KHBK 阅读(560) 评论(0) 推荐(0) 编辑
摘要: 在实际应用中,一般会选择将数据集划分为训练集(training set)、验证集(validation set)和测试集(testing set)。其中,训练集用于训练模型,验证集用于调参、算法选择等,而测试集则在最后用于模型的整体性能评估。 1. 留出法 (Hold-out) 将数据集D划分为2个 阅读全文
posted @ 2018-11-23 17:33 KHBK 阅读(629) 评论(0) 推荐(0) 编辑
摘要: 机器学习的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E,使其在T中任务获得了性能改善,我们则说关于任务类T和P,该程序对经验E进行了学习(Mitchell, 1997)。 机器学习的研究内容:关于在计算机上从数据中产生模型的算法,即学习算法(learning algo 阅读全文
posted @ 2018-11-23 15:43 KHBK 阅读(478) 评论(0) 推荐(0) 编辑