摘要:
数据可视化:将数据表示成各种图,方便分析数据 盒状图(箱线图):能分析多个属性数据的离散度差异性 直方图:用来分析单个属性在各个区间的变化分布 散点图:用来显示两组数据的相关性分布 阅读全文
摘要:
在认识了数据之后,我们要知道基本的数据统计方法为数据处理做准备 数据统计动机: 为了更好地理解数据:集中趋势、分布 数据统计的常用统计特性: 最大值,最小值,中位数,位数,离群值,方差等 中性化趋势度量:均值、中位数、众数 平均值:一组数据的均衡点(均值对离群值很敏感,因此,中位数和截断均值也很常用 阅读全文
摘要:
要进行数据挖掘,首先我们要知道什么是数据、数据集,有哪些数据类型 数据集: 在数据库中,我们存储的一个数据库表(table)就是一个数据集,数据表的每一行就是一个数据对象(就是一条信息),数据表的列就是数据的属性(用来解释每一个数据代表什么含义) 数据(属性)类型: 标称: 标称类型的数据与该数据的 阅读全文
摘要:
数据挖掘定义: 数据挖掘是从大量的,不完全的,有噪声的,模糊的,随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。 数据挖掘涉及到的知识: 数据库技术、统计学、可视化、高性能计算、人工智能、机器学习 关于数据、信息、知识的理解: 也就是说 : 对于一个客户:它的年龄2 阅读全文
摘要:
切比雪夫距离: 国际象棋中,国王可以直行、横行、斜行,所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子(x1,x2)走到格子(y1,y2)最少需要多少步?答案是 max(|x1-y1|,|x2-y2|),这个距离就叫切比雪夫距离。 二维平面两点 a(x1,x2),b(y1,y2) 间的切 阅读全文
摘要:
杰卡德距离(Jaccard Distance): 杰卡德相似系数(Jaccard similarity coefficient):两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示: \(J\left ( A,B\right ) = \frac{ 阅读全文
摘要:
欧式距离: 两点之间的直线距离: 二维平面上两点 a(x1,x2),b(y1,y2) 间的欧式距离为: \(d = \sqrt{(x_{1}-y_{1})^{2}+(x_{2}-y_{2})^{2}}\) 三维平面上两点 a(x1,x2,x3), b(y1,y2,y3)间的欧氏距离: \(d = \ 阅读全文