摘要: 1、数据质量分析 脏数据:缺失值、异常值、不一致的值、重复数据及含有特殊符号的数据 缺失值处理 产生原因 1、信息无法获取或者获取代价大 2、信息因个人原因或客观原因被遗漏 3、根据实际而言,属性值不存在 影响 1、丢失大量有用信息 2、不确定性更加显著,难以把握规律 3、不可靠输出 分析 1、含有 阅读全文
posted @ 2019-03-12 20:06 萌萌的美男子 阅读(488) 评论(0) 推荐(0) 编辑
摘要: 1、基础 适用数据:数值型。 (1)相关系数(R2)衡量 有时候,我们需要计算预测值与实际值的匹配程度,来衡量所建立模型的好坏。此时,需要计算Y、Y‘的相关系数: 其中,Cov表示协方差,Var表示方差。 (2)缩减系数 当数据的特征比样本数目还多时,此时n>m,输入的样本矩阵非满秩矩阵,在求逆时会 阅读全文
posted @ 2019-03-12 19:55 萌萌的美男子 阅读(1364) 评论(0) 推荐(0) 编辑
摘要: 聚类,就是根据数据的“相似性”将数据分为多类的过程。 评估不同样本之间的“相似性”,通常使用的方法为计算样本之间的“距离”。距离计算方法的不同会影响聚类结果的好坏。 1)簇类型 (1)明显分离的簇 簇是对象的集合。 每个点到同簇中任意点的距离比到不同簇中所有点的距离更近。簇的形状任意。 (2)基于中 阅读全文
posted @ 2019-03-12 19:28 萌萌的美男子 阅读(1175) 评论(0) 推荐(0) 编辑
摘要: 1、混淆矩阵 一般情况下,分类器的好坏是通过错误率来衡量的。错误率指的是在测试数据中错误分类的样本所占比例。然而,这样进行度量掩盖了样例如何被分错的原因。 三类问题混淆矩阵示例: 当该矩阵中非对角元素均为0,那么就会得到完美的分类器。 二分类混淆矩阵: 在分类中,当某个类别的重要性高于其他类别时,可 阅读全文
posted @ 2019-03-12 19:24 萌萌的美男子 阅读(674) 评论(0) 推荐(0) 编辑
摘要: 1、介绍 Logistic回归主要用于二分类。属于监督学习算法的一种。 2、过程 1)logistic sigmoid函数 其具体公式为: 下图给出了其图像: 当x为0时,其函数值为0.5,随着x的增大,对应的函数值会逼近于1;随着x的减少,其值会趋于0.当横坐标刻度足够大时,其看上去会像一个阶跃函 阅读全文
posted @ 2019-03-12 18:37 萌萌的美男子 阅读(418) 评论(0) 推荐(0) 编辑
摘要: pass 阅读全文
posted @ 2019-03-12 11:56 萌萌的美男子 阅读(126) 评论(0) 推荐(0) 编辑
摘要: pass 阅读全文
posted @ 2019-03-12 11:56 萌萌的美男子 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 1、关联规则原理 1、关联规则概述 关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之间存在一定的关联关系,那么,其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系 阅读全文
posted @ 2019-03-12 11:55 萌萌的美男子 阅读(446) 评论(0) 推荐(0) 编辑
摘要: pass 阅读全文
posted @ 2019-03-12 11:54 萌萌的美男子 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 1、元算法(集成算法) 元算法就是对其他算法进行组合的一种方式。也称为集成算法(ensemble method),例如bagging方法和boosting方法。它可以是不同算法的集成;也可以是同一算法在不同设置下的集成;还可以是数据集不同部分分配给不同分类器之后的集成。 2、bagging和boos 阅读全文
posted @ 2019-03-12 11:54 萌萌的美男子 阅读(201) 评论(0) 推荐(0) 编辑
摘要: pass 阅读全文
posted @ 2019-03-12 11:53 萌萌的美男子 阅读(127) 评论(0) 推荐(0) 编辑
摘要: KNN是通过测量对象的不同特征值之间的距离进行分类。它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。 KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者 阅读全文
posted @ 2019-03-12 11:51 萌萌的美男子 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 1、介绍 k-means算法以k为参数(所期望的簇的个数),把n个对象分成k个簇(单层划分),用质心(数据点的平均值)定义簇的原型。使得簇内具有较高的相似度,而簇间的相似度较低。 通过聚类,我们能够发现数据对象之间的关系。簇内的相似度越高,簇间的相似度越低,聚类效果越好。 2、过程 ①随机选择k个点 阅读全文
posted @ 2019-03-12 11:50 萌萌的美男子 阅读(386) 评论(0) 推荐(0) 编辑
摘要: 1、介绍 它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。 2、求解过程 1、数据分类—SVM引入 假设在一个二维平面中有若干数据点(x,y),其被分为2组,假设这些数据线性可分,则需要找到一条直线将 阅读全文
posted @ 2019-03-12 11:49 萌萌的美男子 阅读(10039) 评论(1) 推荐(3) 编辑
摘要: 一、概念 决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型:内部节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类别。 分类的时候,从根节点开始,对实例的某一个特征进行测试,根据测试结果,将实例分配到其子结点;此时,每一个子结点对应着该特征的一个取值。如 阅读全文
posted @ 2019-03-12 11:47 萌萌的美男子 阅读(381) 评论(0) 推荐(0) 编辑
摘要: 1、概率 1、条件概率 对于条件概率,我们有: 表示在b已知的情况下(条件)发生a的概率。 2、概率的乘法法则 3、独立事件同时发生的概率 2、贝叶斯定理 贝叶斯定理联系先验概率和后验概率: p(A|B)表示在B发生的情况下A发生的概率。 P(A)指先验概率;P(B|A)为似然函数,形式同条件概率; 阅读全文
posted @ 2019-03-12 11:46 萌萌的美男子 阅读(232) 评论(0) 推荐(0) 编辑
摘要: 1、使用print()打印 测试代码最简单的就是添加一些print()语句。然而产品开发中,需要记住自己添加的所有print()语句并在最后删除,很容易出现失误。 2、使用pylint、pyflakes和pep8检查代码 这些包可以检查代码错误和代码风格问题。 pip install pylint 阅读全文
posted @ 2019-03-12 11:44 萌萌的美男子 阅读(1001) 评论(0) 推荐(0) 编辑
摘要: 1、文件 open()代开文件或者创建文件 exists()检查文件是否存在,传入相对或者绝对路径 isfile()、isdir()、isabs()检查是否为文件、目录 copy()、move()复制文件 rename()重命名 link()、symlink()、islink()创建硬链接、符号链接 阅读全文
posted @ 2019-03-12 11:43 萌萌的美男子 阅读(476) 评论(0) 推荐(0) 编辑
摘要: python中所有数据都是以对象形式存在。对象既包含数据(变量),也包含代码(函数),是某一类具体事物的特殊实例。 面向对象的三大特性为封装、继承和多态。 1、定义类 self参数指向正在被创建的对象本身。 self 代表的是类的实例,代表当前对象的地址,而 self.__class__ 则指向类。 阅读全文
posted @ 2019-03-12 11:42 萌萌的美男子 阅读(699) 评论(0) 推荐(0) 编辑
摘要: 生成器用来创建序列对象,可以迭代庞大的序列,且不需要在内存中创建和存储整个序列。 生成器是为迭代器生成数据的。 每次迭代生成器时,会记录上一次调用的位置,并且返回下一个值。 1、生成器推导式 见推导式。 2、生成器函数 和普通函数类似,但返回值使用yield语句声明。 阅读全文
posted @ 2019-03-12 11:41 萌萌的美男子 阅读(198) 评论(0) 推荐(0) 编辑