随笔分类 - Machine Learning
摘要:什么是聚类任务 “无监督学习”中研究最多,应用最广的学习任务,除此之外,还有密度估计(density estimation)和异常检测(anomaly detection)。在无监督学习中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习揭示数据的内在性质及规律,为进一步的数据分析提供基
阅读全文
摘要:集成学习(ensemble learning)通过构建并结合多个学习器完成任务。也可称为多分类器系统(multi-classifier system)、基于委员会的学习(committee-based learning)等。其一般结构是先生成一组“个体学习器”(individual learner)
阅读全文
摘要:贝叶斯决策论:贝叶斯分类器的理论基础。 什么是贝叶斯决策论? 寻找判定准则,即贝叶斯判定准则(decision rule),使总体风险最小化;即在每个样本选择那个能使条件风险最小的类别标记。就是对每个样本选择使后验概率最大的分类器 可通过贝叶斯定理获得后验概率,从而转为对类条件概率(似然)的求解 如
阅读全文
摘要:原理 在机器学习中, 混淆矩阵是一个误差矩阵, 常用来可视化地评估监督学习算法的性能. 混淆矩阵大小为 (n_classes, n_classes) 的方阵, 其中 n_classes 表示类的数量. 这个矩阵的每一行表示真实类中的实例, 而每一列表示预测类中的实例 (Tensorflow 和 sc
阅读全文
摘要:英文原文: Dilated Convolution 简单来说,扩张卷积只是运用卷积到一个指定间隔的输入.按照这个定义,给定我们的输入是一个2维图片,扩张率 k=1 是通常的卷积,k=2 的意思是每个输入跳过一个像素,k=4 的意思是跳过 3 个像素.最好看看下面这些 k 值对应的图片. 下面的图片表
阅读全文
摘要:原理 对数损失, 即对数似然损失(Log-likelihood Loss), 也称逻辑斯谛回归损失(Logistic Loss)或交叉熵损失(cross-entropy Loss), 是在概率估计上定义的.它常用于(multi-nominal, 多项)逻辑斯谛回归和神经网络,以及一些期望极大算法的变
阅读全文
摘要:在机器学习任务中,经常会对数据进行预处理.如尺度变换,标准化,二值化,正规化.至于采用哪种方法更有效,则与数据分布和采用算法有关.不同算法对数据的假设不同,可能需要不同的变换,而且有时无需进行变换,也可能得到相对更好的效果.因此推荐使用多种数据变换方式,用多个不同算法学习和测试,选择相对较好的变换方
阅读全文
摘要:一、简介支持向量机,一种监督学习方法,因其英文名为support vector machine,故一般简称SVM。通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。支持向量机建构一个或多个高维(甚至是无限...
阅读全文