随笔分类 - 机器学习
摘要:关键词提取顾名思义就是将一个文档中的内容用几个关键词描述出来,这样这几个关键词就可以提供这个文档的大部分信息,从而提高信息获取效率。 关键词提取方法同样分为有监督和无监督两类,有监督的方法比如构造一个关键词表,然后计算文档和每个次的匹配程度用类似打标签的方法来进行关键词提取。这种方法的精度比较高,但
阅读全文
摘要:背景与原理: BP神经网络通常指基于误差反向传播算法的多层神经网络,BP算法由信号的前向传播和反向传播两个过程组成,在前向传播的过程中,输入从输入层进入网络,经过隐含层逐层传递到达输出层输出,如果输出结果与预期不符那么转至误差反向传播过程,否则结束学习过程。在反向传播过程中,误差会基于梯度下降原理分
阅读全文
摘要:背景与原理: 朴素贝叶斯算法是机器学习领域最经典的算法之一,仍然是用来解决分类问题的。 那么对于分类问题,我们的模型始终是:用组数据,每条数据形如,表示数据共有个特征维度,而表示该数据所属的类别,不妨设有个取值$C_{1},...,C
阅读全文
摘要:背景与原理: 首先我们需要知道集成学习的概念,所谓集成学习,就是使用一系列学习器进行学习,并且通过某种规则把这些学习器的学习结果整合起来从而获得比单个学习器学习效果更好的机器学习方法。这样的方法可以用于解决单个学习器的过拟合、性能瓶颈等问题,常用的集成方式主要有Bagging(并行)和Boostin
阅读全文
摘要:背景与原理: 决策树算法是在各种已知情况发生概率的基础上通过构成决策树来求某一事件发生概率的算法,由于这个过程画成图解之后很像一棵树形结构,因此我们把这个算法称为决策树。 而在机器学习中,决策树是一种预测模型,代表对象属性和对象值之间的一种映射,一棵决策树的每个内部节点会处理数据的某个维度对应的变量
阅读全文
摘要:背景与原理: 支持向量机是一种用来解决分类问题的算法,其原理大致可理解为:对于所有维的数据点,我们希望能够找到一个维的直线(平面,超平面),使得在这个超平面一侧的点属于同一类,另一侧的点属于另一类。而我们在寻找这个超平面的时候,我们只需要找到最接近划分超平面的点,而一个维空间中的点
阅读全文
摘要:背景与原理: 聚类问题与分类问题有一定的区别,分类问题是对每个训练数据,我给定了类别的标签,现在想要训练一个模型使得对于测试数据能输出正确的类别标签,更多见于监督学习;而聚类问题则是我们给出了一组数据,我们并没有预先的标签,而是由机器考察这些数据之间的相似性,将相似的数据聚为一类,是无监督学习的一个
阅读全文
摘要:背景与原理: PCA(主成分分析)是将一个数据的特征数量减少的同时尽可能保留最多信息的方法。所谓降维,就是在说对于一个维数据集,其可以看做一个维空间中的点集(或者向量集),而我们要把这个向量集投影到一个维空间中,这样当然会导致信息损失,但是如果这个维空间的基底选取的足够好
阅读全文
摘要:背景与原理: KNN算法其实是逻辑最简单的分类算法——我们认为一个数据的类型是由与其最接近的数据决定的,而“接近”实际上就是我们度量两个数据点之间的距离,如果我们把一组数据看做一个向量,其中代表这个数据的类别,那么两组数据间的
阅读全文
摘要:背景与原理: 线性回归可以实现对连续结果的预测,但是现实生活中我们常见的另一种问题是分类问题,尤其是二分类问题,在这种情况下使用线性回归就不太合适了,我们实际上需要计算出的是一个在之间的概率来告诉我们某样本属于某一类的概率,因此逻辑回归应运而生。 一般的逻辑回归就是在线性回归的基础上嵌
阅读全文
摘要:背景与原理: 线性回归是机器学习建模中最为简单的模型,也是计算起来最为直观的模型 所谓线性回归,我们要建立的是这样的模型:对一组数据,每组数据形如,我们希望构造一个线性函数$h_{\theta}(X)=\sum_{i=0}^{n}\theta_{i}x_{i
阅读全文