03 2022 档案
摘要:背景与原理: 支持向量机是一种用来解决分类问题的算法,其原理大致可理解为:对于所有维的数据点,我们希望能够找到一个维的直线(平面,超平面),使得在这个超平面一侧的点属于同一类,另一侧的点属于另一类。而我们在寻找这个超平面的时候,我们只需要找到最接近划分超平面的点,而一个维空间中的点
阅读全文
摘要:背景与原理: 聚类问题与分类问题有一定的区别,分类问题是对每个训练数据,我给定了类别的标签,现在想要训练一个模型使得对于测试数据能输出正确的类别标签,更多见于监督学习;而聚类问题则是我们给出了一组数据,我们并没有预先的标签,而是由机器考察这些数据之间的相似性,将相似的数据聚为一类,是无监督学习的一个
阅读全文
摘要:背景与原理: PCA(主成分分析)是将一个数据的特征数量减少的同时尽可能保留最多信息的方法。所谓降维,就是在说对于一个维数据集,其可以看做一个维空间中的点集(或者向量集),而我们要把这个向量集投影到一个维空间中,这样当然会导致信息损失,但是如果这个维空间的基底选取的足够好
阅读全文
摘要:背景与原理: KNN算法其实是逻辑最简单的分类算法——我们认为一个数据的类型是由与其最接近的数据决定的,而“接近”实际上就是我们度量两个数据点之间的距离,如果我们把一组数据看做一个向量,其中代表这个数据的类别,那么两组数据间的
阅读全文
摘要:背景与原理: 线性回归可以实现对连续结果的预测,但是现实生活中我们常见的另一种问题是分类问题,尤其是二分类问题,在这种情况下使用线性回归就不太合适了,我们实际上需要计算出的是一个在之间的概率来告诉我们某样本属于某一类的概率,因此逻辑回归应运而生。 一般的逻辑回归就是在线性回归的基础上嵌
阅读全文
摘要:背景与原理: 线性回归是机器学习建模中最为简单的模型,也是计算起来最为直观的模型 所谓线性回归,我们要建立的是这样的模型:对一组数据,每组数据形如,我们希望构造一个线性函数$h_{\theta}(X)=\sum_{i=0}^{n}\theta_{i}x_{i
阅读全文