Fork me on GitHub

数据挖掘-概念、取样方法研究

随着数据库技术的 飞速发展和广泛使用电 在数据库里电 存储的 数据越来越庞大 门 在数据挖掘的领域里电 要使用科学的方式 、方法 降低挖掘算法的时间电 使数据挖掘的效率更高门

1     数据的挖掘概念

数据库中的知识发现又称数据挖掘啕 数据库领域研究和人工智 能是目前的热点问题门 数据挖掘就是从拥有大量数据的数据库中 找出先前未知的 、有着潜在价值的信息过程门 数据挖掘是决策支持 过程啕 它墓于模式识别、人工智能、机器学习、数据库、可视化、统计 学等技术啕 自动分析企业数据进行推理电 挖掘出潜在模式电 帮助决策 者调整策略啕 作出正确决策口

发现具有潜在价值信息的过程啕 包含三个步骤 :第一是数据准 备电 第二是数据的挖掘啕 第三是挖掘的数据结果表达和解释 口 数据 挖掘可以与知识库或用户交互门

数据挖掘是在大量数据中找其规律啕 准备数据、寻找规律和表 达解释规律口 准备数据就是从数据源中挑选需要的数据并合成用 作数据挖掘的数据集 :寻找规律就是从数据集中把它所含的规律找 出来:挖掘数据结果表达和解释 就是把找出的规律表示出来口

数据挖掘任务包括聚类分析 、关联分析 、特异群组分析、分类分 析和演变分析等口

2     数据挖掘的特征和本质

按常规来说电 j夹义的观点认为常规数据分析区别于数据挖掘的 关键点是电 常规数据分析侧重于交叉报告 、描述性统计、假设检验 等电 数据挖掘则侧重于预测 、分类、聚类与关联等 4 类问题口 广义的 观点认为从数据库中挖掘的任何信息都叫做数据挖掘门 这样看来电 数据挖掘就是商业智能 口 如果从技术术语上说电 数据挖掘指的是以 前的数据经过清洗转换变成适合挖掘的数据集口  数据挖掘就是在 这神有着固定形式的数据集上完成了知识提炼啕 用合适的知识模式 做下一步分析决策工作 口 通过以上分析啕 笔者把数据挖掘定义为 : 数据挖掘就是从数据集中挖掘和提炼知识的过程门

3     数据挖掘的取样方法

取样是一种成熟的统计技术啕 己被研究了上百年电 随机抽样技 术更是如此门 在数据管理领域里电 关于随机抽样的有效性己有很多 描述啕 随机抽样能捕捉到数据基本特征的很小部分数据子集来代表 总数据集电 根据该样本集能获得相似的或近似的查询结果电 这样的 样本集还可以用于数据挖掘工作 口 近年来在很多领域中都采用 了 抽样技术啕 并达得了非常不错的效果电 这充分说明了抽样技术的应 用越来越广泛流行门

抽样的方法与分类 :数据项根据在抽样技术中被选中的数据是 否相同电 抽样方法可以被分为偏倚抽样和均匀抽样两种口 在偏倚抽 样中电 不一样的元素入选的概率也可能不一样 口 而在均匀抽样中各 个元素入选的概率是相同的 口 相同的抽样概率能以相同尺寸的抽 样产生互动类同口 均匀抽样经典的两种设计是电 伯努利抽样和水库 抽样啕 这两种抽样方法是其他所有抽样方法的基础门 伯努利抽样是

均匀抽样,它的主要特点是所用的时间短 、操作简单门生成的均匀 抽样及大小为 K啕 如果很多个元素到达时电 数据流中的元素会以 Kl N 的概率所选中电 当样本集的大小超出了 K啕 就会从中随机除去这 个样本电 各个元素的入选概率都是相同的门 水库抽样方法是非常重 要的随机均匀抽样方法啕 是由原来的传统方法拓展到数据库领域门 大小空间固定 、时间复杂度为零啕 更适合挖掘数据流的环境啕 成功的 抽样技术确保了抽样的质量门 从提高抽样质量的角度上说电 采取了 三个类型的抽样策略 :第一电 渐进抽样啕 渐进抽样就是先从一个小的 抽样开始啕 慢慢再加大抽样的抽样率或抽样尺寸啕 直到抽样的正确 性不随之改变为止 :第二啕 从实验样本集中获取数据集的特征假定 或预评估啕 在这样的基础上再进行抽样 :第三啕 为具体的应用抽取特 定的数据特征啕 而不是产生一个能适用于多种应用 的取样集口

4     挖掘 SAS 数据的方法

SAS/EN  可实现数据集市和同数据仓库啕 以及商务智能报表工 具的无f逢集成门 它有着数据抽样工具 、数据获取工具、数据挖掘工 具、数据筛算工具、数据挖掘过程、数据变量转换工具和数据挖掘评 价工具门

第一电 数据抽样门 进行数据抽样时电 要从企业大量的数据里找 出要探索问题的样板数据子集电 并不是调用全部数据 口 在数据抽样 的过程中电 一定要确保数据的质量啕 保证抽样的数据的有效性 、真实 性、完整性和代表性口 只有这样才能使以后的分析研究得出规律性 的结果门

第二啕 探索数据特征啕 预处理 分析和子处理分析门 有了样本 数据集后啕 看它是不是达到了以前的设想要求啕 趋势和规律是否明 显啕 是否有没有设想过的数据状态啕 因素之间是否有关联性电 这些内 容是首先要探索的门 分析探索数据的特征啕 可视化操作是最理想的 操作方法口

第三电 技术选择和数据调整 、问题明确化门想让解决的问题更 加明确时电 尽可能把解决的问题进一步量化 口 在问题量化后的基础 上电 就能按问题要求审视数据集了电 针对问题的需求看它是不是适 应啕 必要时要对数据进行删除或增加电 在数据挖掘过程会有新的认 识啕 生成或组合新的变量啕 对状态的有效描述就得到充分体现门

5     结 语

随着计算机科学的快速发展电 数据挖掘己成为重要工具啕 本文 对数据挖掘的概念 、特征和本质、取样方法等进行了详细分析啕 希望 为数据挖掘的计算流程优化作出一定的贡献 口

 
posted @ 2016-11-07 00:06  stardsd  阅读(1678)  评论(0编辑  收藏  举报