随笔分类 - 《机器学习》
摘要:1. 基本概念 机器学习中的“规则”(rule)通常是指语义明确、能描述数据分布所隐含的客观规律或领域概念、可写成“若……,则……”形式的逻辑规则. “规则学习” (rule learning)是从训练数据中学习出一组能用于对未见示例进行判别的规则。 解决冲突的办法称为“冲突消解”(conflict
阅读全文
摘要:1、基本概念 概率图模型(probabilistic graphical model)是一类用图结构来表达各属性之间相关关系的概率模型, 一般而言:图中的一个结点表示一个或一组随机变量,结点之间的边则表示变量间的相关关系,从而形成了一张“变量关系图”。 概率图模型分为贝叶斯网络(Bayesian N
阅读全文
摘要:1、基本概念 计算学习理论(computational learning theory)是通过“计算”来研究机器学习的理论, 其目的是分析学习任务的本质,例如:在什么条件下可进行有效的学习,需要多少训练样本能获得较好的精度等,从而为机器学习算法提供理论保证。 2、PAC学习 计算学习理论中最基本的是
阅读全文
摘要:1、子集搜索与评价 特征选择(feature selection):从给定的特征集合中选择出相关特征子集的过程。 进行特征选择的原因主要分为: 解决“维数灾难”问题。(与降维有异曲同工之妙) 降低学习任务的难度(将纷繁复杂的因素抽丝剥茧,留下关键因素) 无关特征是指与当前学习任务无关的特征。 冗余特
阅读全文
摘要:1、K近邻学习 k近邻算法简称kNN(k-Nearest Neighbor),是一种经典的监督学习方法,数据挖掘十大算法之一。 工作机制:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。 通常,在分类任务中可使用“投票法”,即选择这k个样本
阅读全文
摘要:1、个体与集成 集成学习(ensemble learning):构建并结合多个学习器来完成学习任务 集成学习可以只包含同种类型的个体学习器,如全是决策树、神经网络,称为“同质”(homogeneous);也可以包含不同类型的个体学习器,如同时包含决策树、神经网络,称为异质的(heterogeneou
阅读全文
摘要:1、 贝叶斯决策论 贝叶斯决策论(Bayesian decision theory)是概率框架下实施决策的基本方法,对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。 决策论中将“期望损失”称为“风险” (risk). 我们的任务就是寻
阅读全文
摘要:1、间隔与支持向量 支持向量机(support vector machine)是一种经典的二分类模型,基本模型定义为特征空间中最大间隔的线性分类器,其学习的优化目标便是间隔最大化,因此支持向量机本身可以转化为一个凸二次规划求解的问题。 对于二分类学习,假设现在的数据是线性可分的,这时分类学习最基本的
阅读全文
摘要:下面介绍一些常见的神经网络 1、其他常见神经网络 1.1RBF网络 RBF网络是一种单隐层前馈神经网络,它使用径向基函数作为隐层神经元激活函数,而输出层则是对隐层神经元输出的线性组合。径向基函数,是某种沿径向对称的标量函数,通常定义为样本到数据中心之间欧氏距离的单调函数。具有足够多隐层神经元的RBF
阅读全文
摘要:1、 基本概念 在机器学习中,神经网络一般指的是“神经网络学习”,是机器学习与神经网络两个学科的交叉部分。所谓神经网络,目前用得最广泛的一个定义是“神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应”。神经网络其实就是一个函数近似器。
阅读全文
摘要:前面机器学习:决策树(上)已经学习了构造决策树的基本流程、三个常见算法、以及划分属性的方法,下面将学习如何优化一个决策树 1、剪枝处理 剪枝(pruning)是决策树学习算法应对过拟合的主要手段。因为决策树模型太强大了,很可能把训练集学得太好以致于把训练集本身的特性也给学习了(特别是属性数多于样本数
阅读全文
摘要:模型评估与选择 1、经验误差与过拟合 错误率:分类错误的样本数占样本总数的比例。 精度=1-错误率。 误差:学习器的实际预测输出与样本的真实输出之间的差异。 训练误差/经验误差:学习器在训练集上的误差。 泛化误差:在新样本上的误差。 2、评估方法 ⭐留出法:直接将数据集划分为两个互斥的集合。 需要注
阅读全文