数据挖掘简介
数据挖掘简介
作者:Preeti Yadav(GLA大学,201550105)
当我第一次开始数据挖掘时,我遇到了各种定义,因此我来这里是为了让您在数据挖掘中的初始步骤更简单。
让我们从最基本的数据挖掘描述开始。
我 介绍: 数据挖掘是计算机科学和统计学的一个跨学科子领域,其总体目标是 ** 提取信息** (使用智能方法)来自数据集和 ** 改造** 将信息转化为 ** 可理解的结构** 以供进一步使用。大型数据集通过数据挖掘进行分类,以找到可用于数据分析的模式和相关性,以帮助解决业务挑战。借助数据挖掘技术和技术,企业可以预测未来趋势并做出更明智的业务决策。
数据挖掘任务: 实际数据挖掘任务是对大量数据的半自动/自动分析,以从以前未知的、有趣的模式中提取,例如一组数据记录(聚类分析)、异常记录(异常检测)和依赖关系(关联规则挖掘) ,顺序模式挖掘)。
使困惑…!!那么数据分析有什么不同呢?是一样还是不一样??让我们解决...
数据分析 用于测试数据集上的模型和假设。例如:分析营销活动的有效性,无论数据量如何。
数据挖掘 使用机器学习和统计模型来发现大量数据中的隐藏模式。
日期我 宁是一个分析步骤 “数据库中的知识发现”。
W HY数据挖掘?
让我们理解数据挖掘提升的模式,因为它的存在背后有一个坚实的背景。
识别数据模式的早期方法包括 __“贝叶定理” 和 “回归分析”, 但是由于计算机技术的强大功能,数据收集、存储和操作能力急剧增加。随着数据集规模和复杂性的增长,直接“动手”数据分析越来越多地通过间接、自动化 数据预处理,在计算机科学的其他发现的帮助下 特别是在机器学习领域,如神经网络、聚类分析、遗传算法、决策树和求和。
数据挖掘是应用这些方法的过程 ** 发现隐藏模式的意图** 在大型数据集中。或数据挖掘 弥合差距 之间 ** 应用统计和人工智能** (通常提供数学背景)通过利用数据在数据库中的存储和索引方式进行数据库管理 ** 更有效地执行实际的学习和发现算法。**
数据库中的知识发现: 自动识别以前未识别的模式、规则和其他隐含在大量信息中的常规特征被称为数据库中的知识发现 (KDD)。
ķ DD 通过跨 5 个阶段迭代处理数据来采用自动检测:
- 选择
- 预处理
- 转型
- 数据挖掘
- 解释/评估
- 选择: 根据编译数据的数据库,确定目标数据,并确定将用于评估知识发现的变量。
- 预处理: 改进正在使用的数据并结合数据清理的概念,建立不可靠数据的预测模型,以预测错误、缺失、归因不匹配的数据,然后将其排除在未来的流程之外。
- 转型: 在品种和数据属性方面缩小范围,并对信息进行组织/分类。
- 数据挖掘: 专注于通过转换后的数据寻找模式( 以对 KDD 特别有帮助的形式绘制图表 ) 出于兴趣。
- 解释/评估: 在这一点上,数据已经被清理、转换、根据相关属性挑选出来,并被框成视觉表示,以帮助人们更好地评估策划的部分。
数据库中知识发现的优点:
- 营销预测: 预测性,确定产品重点,确定客户想要的其他类型的产品。
- 迭代过程: 通过使用正式获得的和以前未知的信息,在每个阶段对数据进行细化。获得的知识会循环回到流程中,从而提高其效率。
- 异常识别: 我们对流程漏洞或安全志愿者能力的了解越多,我们就越能防范它们。
数据库中知识发现的缺点:
- 过时的 没有解决数据科学项目、大型架构和科学团队角色的现代现实。
- 昂贵的 :存储海量、不断发展的数据量需要不明显的前期成本。
- 耗时过程: 在这个快速生成的知识发现中,每秒钟都在收集更多需要筛选的额外数据,这意味着这个过程肯定需要额外的时间。
- 瀑布 : 迭代过程导致陷入僵化和呆滞的缺点。
跨行业数据挖掘标准流程(CRISP-DM): CRISP-DM 非常完整且有文档记录。他的所有阶段都经过适当组织、结构化和定义,使项目易于理解或修改。
C RISP-DM __一世 s 一个开放的标准过程模型,描述了数据挖掘专家使用的常用方法 .
Crisp-Dm 的创建是为了解决知识发现方面的不足,crisp-dm 的循环由 6 个阶段组成:
- 业务问题理解
- 数据理解
- 数据准备
- 分析/建模
- 验证/评估
- 部署/可视化
- 业务问题理解 ↴
- 确定业务目标 ↠ 访问情况 ↠ 确定数据科学目标 ↠ 制定项目计划
2. 数据理解↴
- 收集初始数据↠描述数据↠探索数据↠验证数据质量
3. 数据预处理↴
- 选择数据↠清理数据↠构造数据↠整合数据↠格式化数据
- 建模↴
- 选择建模技术↠生成测试设计↠构建模型↠评估模型
5. 评价↴
- 评估结果↠审查过程↠确定下一步
6.部署↴
- 计划可视化↠计划监控和维护↠生成最终报告↠审查项目
跨行业数据挖掘标准流程(CRISP-DM)的优点:
- 这种方法是 具有成本效益 因为它包括许多用于执行简单数据挖掘任务的过程。
- CRISP-DM 鼓励 最佳实践 和 允许项目复制。
- 这种方法提供了一个 统一框架 为了 规划 和 管理 一个专案。
- 成为一个 跨行业标准 , CRISP-DM 可以在任何数据科学项目中实施 与其域无关 .
希望本文能够说服您在分析分析中使用数据挖掘和研究方法(KDD 和 CRISP-DM),并让您更好地掌握 DM 构建块。
如果您有任何疑问,欢迎您与我们联系……!!
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明