数据挖掘一些小问题

1、简单描述一下数据挖掘的过程

1)数据清洗:清除数据噪声和与挖掘主题明显无关的数据

2)数据集成:将来自多个数据源中的相关数据组合到一起

3)数据选择:根据数据挖掘的目标选取待处理的数据

4)数据转换:将数据转换为易于进行数据挖掘的数据存储形式

5)数据挖掘:根据一定评估标准,从挖掘结果中筛选出有意义的相关知识

6)知识表示:利用可视化和知识表达技术,向用户展示所挖掘的相关知识

2、均值、中位数、截断均值在反应数据中心方面的特点

1)均值

2)中位数:对于倾斜的(非对称的)数据,中位数是数据中心的一个较好度量

3)截断均值:均值对极端值很敏感,截断均值可以避免少量极端值影响均值

3、在数据预处理的时候可以发现并清除噪音数据吗?噪音数据一般有哪些处理方法

1)可以。数据清理的目的就是试图填充缺失值、去除噪声并识别利群点、纠正数据中的不一致值。

2)1、分箱:通过考察周围的值来平滑有序数据的值

     2、聚类:聚类将类似的值组织成群或簇。落在簇集合之外的值被视为异常值

     3、回归:通过回归(线性回归、非线性回归)让数据适合一个函数来平滑数据

4、举例说明什么是数据挖掘的关联分析任务

例:通过对数据集进行关联分析,发现关联规则A→B,表示购买产品A的顾客通常都会购买产品B。关联规则中的前件和后件不存在必然的因果关系,只是表示如果前件出现了,后件也很有可能出现。

5、一趟聚类算法是如何在时效性和处理混合型数据方面得到提高的?它的缺点是什么?

1、对于大规模数据集,聚类时效性和准确性难以满足要求

    2、难以直接处理混合属性的数据

    3、聚类结果依赖于 参数,而参数的选择主要靠经验或试探,没有简单、通用的方法。

 

posted @ 2020-04-27 08:55  TOWERB  阅读(739)  评论(0编辑  收藏  举报