随笔分类 - 听课:国科大丁兆云数据挖掘
摘要:一、数据清洗 为什么进行数据预处理:初始数据的质量或多或少都存在问题 现实世界中的数据是“脏”的:不完整、噪声、不一致 如何处理缺失数据:忽略元组(直接删),手动添加(工作量大)、自动填写(常用) 如何处理噪声数据:箱线图,删除离群点 如何处理不一致数据:计算推理、替换 二、数据集成 数据集成:将来
阅读全文
摘要:一、数据类型和统计 1、数据对象 数据集是由数据对象组成,一个数据对象代表一个实体 数据库里通常每行代表一个数据对象,每列通常代表一个属性 1)常见的四类属性: A、标称:一种类型的数据状态是可以列举的,比如颜色,婚姻状态等 二进制是特殊的标称数据 二进制类型的分为对称二进制(两种类型规模相当)和不
阅读全文
摘要:一、数据挖掘的由来 为什么学习数据挖掘这门课程:1、学习生活中无时无刻不在产生接触数据,数据很多但是没有充分利用,即存在着数据爆炸但是知识贫乏的现象。2、通过数据挖掘提供预测性信息。3、科学发展的四个阶段即经验科学、理论科学、计算科学、数据科学,我们正处于数据科学阶段,需要数据挖掘这门技术。 数据挖
阅读全文