随笔- 79  文章- 1  评论- 1  阅读- 1678 

目的:希望能对海量数据进行更加深入的分析,发现并提取隐藏在其中的有价值信息,以便更好地利用这些数据。

概念

数据挖掘(Data Mining DM)是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。对数据挖掘而言,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。

知识发现(Knowledge Discovery in Database KDD)是指用数据库管理系统来存储数据、用机器学习方法来分析数据、挖掘大量数据背后的隐藏的知识的过程。数据挖掘是整个知识发现流程中的一个具体步骤。

数据挖掘的过程

  • 1.业务理解,在需求基础上指定数据挖掘目标和实现目标的计划。
  • 2.数据理解,收集数据,识别数据质量问题。
  • 3.数据准备,选择必要的属性,进行数据清洗。
  • 4.数据建模,选择最合适的模型,并确定最佳参数。
  • 5.模型评估,对模型进行可靠性和合理性评估,确保模型可以完成业务目标。
  • 6.部署阶段,将模型应用于实际工作。

常用工具

商用

  • SAS Enterprise Miner 是一种通用的数据挖掘工具。
  • SPSS Clementine 是数据挖掘工具。
  • IBM Intelligent Miner 包含最广泛的技术和算法。
  • QUEST 是一个多任务数据挖掘系统。

开源

  • R 是用于统计分析和图形化的计算机语言及分析工具。
  • Python 有相当多的和数据挖掘相关的库和模块。
  • Weka 是基于Java的数据挖掘软件。
  • RapidMiner 是用于数据挖掘的计算环境。
  • Mahout 提供了可扩展经典算法的实现和程序库。
  • Spark 是一个集群运算框架。

参考

[1]刘鹏,张燕. 数据挖掘

 posted on   x-yun  阅读(107)  评论(0编辑  收藏  举报
编辑推荐:
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
点击右上角即可分享
微信分享提示