数据的初步诊断与探索 数据类型、数据对象 数据集由样本构成、一个数据对象表示一个实体 特征表征样本某个特征的数据域 统计信息 相似性度量 缺失值处理和离群值检测 删除法、填补法 基于统计、基于近邻的方法 常用的数据转换方法 特征编码 标准化、离散化