12 2022 档案

摘要:一、数据清洗 为什么进行数据预处理:初始数据的质量或多或少都存在问题 现实世界中的数据是“脏”的:不完整、噪声、不一致 如何处理缺失数据:忽略元组(直接删),手动添加(工作量大)、自动填写(常用) 如何处理噪声数据:箱线图,删除离群点 如何处理不一致数据:计算推理、替换 二、数据集成 数据集成:将来 阅读全文
posted @ 2022-12-16 21:14 奋发图强的小赵 阅读(100) 评论(0) 推荐(0) 编辑
摘要:一、数据类型和统计 1、数据对象 数据集是由数据对象组成,一个数据对象代表一个实体 数据库里通常每行代表一个数据对象,每列通常代表一个属性 1)常见的四类属性: A、标称:一种类型的数据状态是可以列举的,比如颜色,婚姻状态等 二进制是特殊的标称数据 二进制类型的分为对称二进制(两种类型规模相当)和不 阅读全文
posted @ 2022-12-13 20:21 奋发图强的小赵 阅读(404) 评论(0) 推荐(0) 编辑
摘要:一、数据挖掘的由来 为什么学习数据挖掘这门课程:1、学习生活中无时无刻不在产生接触数据,数据很多但是没有充分利用,即存在着数据爆炸但是知识贫乏的现象。2、通过数据挖掘提供预测性信息。3、科学发展的四个阶段即经验科学、理论科学、计算科学、数据科学,我们正处于数据科学阶段,需要数据挖掘这门技术。 数据挖 阅读全文
posted @ 2022-12-11 21:37 奋发图强的小赵 阅读(99) 评论(0) 推荐(0) 编辑
摘要:资源:b站 一、隐私保护 现在,互联网上隐私是一个非常严重的问题。 隐私保护的数据挖掘是一个方兴未艾的研究领域。 因为我们都要去获取数据,但是怎么样才能既保护数据的隐私又能获得我们需要的数据?我们不能用常规的调查问卷收数据,如何设计调查问卷是个有趣的问题。 比如调查是否吸过大麻,一种方式是:问题”你 阅读全文
posted @ 2022-12-11 20:12 奋发图强的小赵 阅读(54) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示