数据挖掘一些小问题

1、简单描述一下数据挖掘的过程

（1）数据清洗：清除数据噪声和与挖掘主题明显无关的数据

（2）数据集成：将来自多个数据源中的相关数据组合到一起

（3）数据选择：根据数据挖掘的目标选取待处理的数据

（4）数据转换：将数据转换为易于进行数据挖掘的数据存储形式

（5）数据挖掘：根据一定评估标准，从挖掘结果中筛选出有意义的相关知识

（6）知识表示：利用可视化和知识表达技术，向用户展示所挖掘的相关知识

（1）均值：

（2）中位数：对于倾斜的（非对称的）数据，中位数是数据中心的一个较好度量

（3）截断均值：均值对极端值很敏感，截断均值可以避免少量极端值影响均值

（1）可以。数据清理的目的就是试图填充缺失值、去除噪声并识别利群点、纠正数据中的不一致值。

（2）1、分箱：通过考察周围的值来平滑有序数据的值

2、聚类：聚类将类似的值组织成群或簇。落在簇集合之外的值被视为异常值

3、回归：通过回归（线性回归、非线性回归）让数据适合一个函数来平滑数据

例：通过对数据集进行关联分析，发现关联规则A→B，表示购买产品A的顾客通常都会购买产品B。关联规则中的前件和后件不存在必然的因果关系，只是表示如果前件出现了，后件也很有可能出现。

1、对于大规模数据集，聚类时效性和准确性难以满足要求

2、难以直接处理混合属性的数据

3、聚类结果依赖于参数，而参数的选择主要靠经验或试探，没有简单、通用的方法。

posted @ 2020-04-27 08:55 TOWERB 阅读(816) 评论(0) 收藏举报

刷新页面返回顶部