随笔分类 - 机器学习
摘要:一、K-means算法原理 k-means算法是一种简单的迭代型聚类算法,采用距离作为相似性指标,从而发现给定数据集中的K个类,且每个类的中心是根据类中所有值的均值得到,每个类用聚类中心来描述。对于给定的一个包含n个d维数据点的数据集X以及要分得的类别K,选取欧式距离作为相似度指标,聚类目标是使得各
阅读全文
摘要:一、朴素的贝叶斯算法原理 贝叶斯分类算法以样本可能属于某类的概率来作为分类依据,朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种,朴素的意思是条件概率独立性。 条件概率的三个重要公式: (1)概率乘法公式: P(AB)= P(B) P(A|B) = P(A) P(B|A) =P(BA) (2)全概率
阅读全文
摘要:1.感知器算法原理 两类线性可分的模式类:,设判别函数为:。 对样本进行规范化处理,即类样本全部乘以(-1),则有: 感知器算法通过对已知类别的训练样本集的学习,寻找一个满足上式的权向量。 2.算法步骤 (1)选择N个分属于和类的模式样本构成训练样本集{ X1, …, XN }构成增广向量形式,并进
阅读全文
摘要:1.4 Pandas速成 Pandas是面向数据分析场景设计的Python开源软件工具包,从命名来看,Pandas特别适合处理序列数据、表格数据等具有良好结构的数据。通过带有标签的列和索引,Pandas使我们可以以一种便于理解的方式来处理数据。它可以让我们毫不费力地从诸如csv类型的文件中导入数据。
阅读全文
摘要:1.3Matplotlib速成 matplotlib是python中著名的2D绘图库,使用方法比较简单,按照以下三步操作就能很简单地完成绘图。 (1)调用plot(),scatter()等方法,并为绘图填充数据,数据是numpy的ndarray类型对象; (2)设定数据标签,使用xlabel()、y
阅读全文
摘要:1.2 NumPy速成 numpy为scipy提供了基本的数据结构和运算,其中最主要的是ndarray多维数组,它提供了高效的适量运算功能。 1.2.1创建数组 #根据列表创建数组 import numpy as np myarray = np.array([1,2,3]) print(myarra
阅读全文
摘要:1.1python速成 1.1.1基本数据类型和赋值运算 字符串 data ='hello world!' print(data[0]) print(data[1:5]) print(len(data)) print(data) 数值 value=523 print(value) value=6.1
阅读全文
摘要:一、什么是机器学习?简述机器学习的一般过程。 机器学习是通过算法使得机器从大量历史数据中学习规律,从而对新样本做分类或者预测。 一个机器学习过程主要分为三个阶段: (1)训练阶段,训练阶段的主要工作是根据训练数据建立模型。 (2)测试阶段,测试阶段的主要工作是利用验证集对模型评估与选择 (3)工作阶
阅读全文
摘要:一、支持向量机 (SVM)算法的原理 支持向量机(Support Vector Machine,常简称为SVM)是一种监督式学习的方法,可广泛地应用于统计分类以及回归分析。它是将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔
阅读全文
摘要:对于维数比较多的数据,首先需要做的事就是在尽量保证数据本质的前提下将数据中的维数降低。降维是一种数据集预处理技术,往往在数据应用在其他算法之前使用,它可以去除掉数据的一些冗余信息和噪声,使数据变得更加简单高效,从而实现提升数据处理速度的目的,节省大量的时间和成本。降维也成为了应用非常广泛的数据预处理
阅读全文
摘要:一、基于Sklearn的PCA代码实现 输出结果: 二、运行过程中出现的问题。 初次运行时出现:No module named 'sklearn.model_selection' 代码提示指向: 仔细查看代码,并无问题,问题出在Sklearn的版本过低,Sklearn 0.17.1的版本(及以前)是
阅读全文
摘要:一、PCA算法的原理 PCA(principle component analysis),即主成分分析法,是一个非监督的机器学习算法,是一种用于探索高维数据结构的技术,主要用于对数据的降维,通过降维可以发现更便于人理解的特征,加快对样本有价值信息的处理速度,此外还可以应用于可视化(降到二维)和去噪。
阅读全文
摘要:一、KNN算法原理 K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法。 它的基本思想是: 在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现
阅读全文
摘要:一、线性回归算法的原理 回归是基于已有数据对新的数据进行预测,比如预测股票走势。这里我们主要讲简单线性回归。基于标准的线性回归,可以扩展出更多的线性回归算法。 线性回归就是能够用一个直线较为精确地描述数据之间的关系,这样当出现新的数据的时候,就能够预测出一个简单的值。 线性回归的模型形如: 线性回归
阅读全文