摘要: 一、K-means算法原理 k-means算法是一种简单的迭代型聚类算法,采用距离作为相似性指标,从而发现给定数据集中的K个类,且每个类的中心是根据类中所有值的均值得到,每个类用聚类中心来描述。对于给定的一个包含n个d维数据点的数据集X以及要分得的类别K,选取欧式距离作为相似度指标,聚类目标是使得各 阅读全文
posted @ 2020-01-19 18:13 泰初 阅读(3820) 评论(0) 推荐(0) 编辑
摘要: 一、朴素的贝叶斯算法原理 贝叶斯分类算法以样本可能属于某类的概率来作为分类依据,朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种,朴素的意思是条件概率独立性。 条件概率的三个重要公式: (1)概率乘法公式: P(AB)= P(B) P(A|B) = P(A) P(B|A) =P(BA) (2)全概率 阅读全文
posted @ 2020-01-19 17:32 泰初 阅读(4893) 评论(0) 推荐(0) 编辑
摘要: 1.感知器算法原理 两类线性可分的模式类:,设判别函数为:。 对样本进行规范化处理,即类样本全部乘以(-1),则有: 感知器算法通过对已知类别的训练样本集的学习,寻找一个满足上式的权向量。 2.算法步骤 (1)选择N个分属于和类的模式样本构成训练样本集{ X1, …, XN }构成增广向量形式,并进 阅读全文
posted @ 2020-01-19 12:02 泰初 阅读(4369) 评论(0) 推荐(0) 编辑
摘要: 1.4 Pandas速成 Pandas是面向数据分析场景设计的Python开源软件工具包,从命名来看,Pandas特别适合处理序列数据、表格数据等具有良好结构的数据。通过带有标签的列和索引,Pandas使我们可以以一种便于理解的方式来处理数据。它可以让我们毫不费力地从诸如csv类型的文件中导入数据。 阅读全文
posted @ 2020-01-19 11:21 泰初 阅读(499) 评论(0) 推荐(0) 编辑
摘要: 1.3Matplotlib速成 matplotlib是python中著名的2D绘图库,使用方法比较简单,按照以下三步操作就能很简单地完成绘图。 (1)调用plot(),scatter()等方法,并为绘图填充数据,数据是numpy的ndarray类型对象; (2)设定数据标签,使用xlabel()、y 阅读全文
posted @ 2020-01-19 11:18 泰初 阅读(382) 评论(0) 推荐(0) 编辑
摘要: 1.2 NumPy速成 numpy为scipy提供了基本的数据结构和运算,其中最主要的是ndarray多维数组,它提供了高效的适量运算功能。 1.2.1创建数组 #根据列表创建数组 import numpy as np myarray = np.array([1,2,3]) print(myarra 阅读全文
posted @ 2020-01-19 10:45 泰初 阅读(384) 评论(0) 推荐(0) 编辑