04 2017 档案

系统聚类法 - 数据挖掘算法(4)
摘要:(2017 04 17 银河统计) 聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,也是数据挖掘技术的基本方法。所谓类,通俗地说,就是指相似元素的集合。聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。随着生产技术和科学的发展,人类的认识不断加深,分 阅读全文

posted @ 2017-04-17 06:03 银河统计 阅读(9503) 评论(0) 推荐(2) 编辑

KNN算法 - 数据挖掘算法(3)
摘要:(2017 04 10 银河统计) KNN算法即K Nearest Neighbor算法。这个算法是机器学习里面一个比较经典的、相对比较容易理解的算法。其中的K表示最接近自己的K个数据样本。KNN算法是用来做归类的,也就是说,一个样本空间里的样本已经分成很几个类型,然后,给定一个待分类的数据,通过计 阅读全文

posted @ 2017-04-10 11:07 银河统计 阅读(1250) 评论(0) 推荐(0) 编辑

相似性度量 - 数据挖掘算法(2)
摘要:(2017 04 03 银河统计) 相似性和相异性被许多数据挖掘技术所使用,如聚类、最近邻分类、异常检测等。不同组样本之间的相似度是样本间差异程度的数值度量,两组样本越相似,它们的相异度就越低,相似度越高。通常用各种“距离”和“相关系数”作为相异度或相似度相异度度量方法。 一、距离计算 1、欧氏距离 阅读全文

posted @ 2017-04-03 17:31 银河统计 阅读(3733) 评论(0) 推荐(0) 编辑

数据标准化 - 数据挖掘算法(1)
摘要:(2017 04 01 银河统计) 数据的标准化(Normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是0 1标准化和Z标准化。 由于 阅读全文

posted @ 2017-04-01 13:37 银河统计 阅读(6604) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示