数据挖掘中的数据

数据挖掘是为了发现有用信息,是kdd知识发现in database 的一部分。
数据挖掘分为四种任务:预测建模、关联分析、聚类分析、异常检测。

数据的关注点:
数据的类型、数据的质量、数据的处理(比如,连续值转换为离散值,减少属性数量)、数据的联系。

属性的描述,即测量,用一个值或符号来表示物理世界的属性,二者性质不必完全相同,如年龄与数值。不用把属性的性质全部描述。
属性的类型:标称、序、区间、比率。
属性:连续、离散。
非对称:出现非零值才是最重要的(?非零值很少),比如01中的1。

数据集的类型:记录数据、图形数据(对象的结构或者对象的联系)、有序数据。

噪声是测量误差,伪像是确定性的偏差。
精度是标准差,偏倚是平均值和准确值的偏差,准确度和有效数字相关。离群点可能是合法值,且是感兴趣的,例如网络访问中的网络攻击。

数据的应用问题:
时效性、相关性
抽样偏倚:样本不能代表总体

考虑设计鲁棒性强的算法

posted on 2015-09-12 23:05  一五一十  阅读(223)  评论(0编辑  收藏  举报

导航