Atitit 知识发现艾提拉总结目录 1. 知识发现 1 1.1. 与数据挖掘的区别与联系数据挖掘"的一种更广义的说法 2 1.2. 基本任务 3 1.2.1. 数据分类 3 1.2.2.

Atitit 知识发现艾提拉总结

目录

1. 知识发现 1

1.1. 与数据挖掘的区别与联系数据挖掘"的一种更广义的说法 2

1.2. 基本任务 3

1.2.1. 数据分类 3

1.2.2. 数据聚类 3

1.2.3. 衰退和预报 3

1.2.4. 关联和相关性 3

1.2.5. 顺序发现 3

1.2.6. 描述和辨别 3

1.2.7. 时间序列分析 4

2. 知识类型 4

2.1. 1)广义型知识(Generalization)。 4

2.2. 2)分类型知识(Classification&Clustering)。 4

2.3. 3)关联型知识(Association)。 4

2.4. 4)预测型知识(Prediction)。 4

2.5. 5)偏差型知识(Deviation)。 4

3. 知识发现的分类 5

3.1. 按挖掘的方法分有数据驱动型、查询驱动型和交互型 5

3.2. 按知识类型分有关联规则、特征挖掘、分类、聚类、总结知识、趋势分析、偏差分析、文本采掘。 5

3.3. 知识发现技术可分为两类：基于算法的方法和基于可视化的方法。 5

4. 关联技术 5

4.1. 基于算法的方法和基于可视化 6

4.2. Web和搜索引擎 6

4.4. 数据结构化标注属性标准化化 6

知识发现

本词条缺少概述图，补充相关内容使词条更完整，还能快速升级，赶紧来编辑吧！

知识发现是从各种信息中，根据不同的需求获得知识的过程。知识发现的目的是向使用者屏蔽原始数据的繁琐细节，从原始数据中提炼出有效的、新颖的、潜在有用的知识，直接向使用者报告。

知识发现(Knowledge Discovery in Database, KDD)，是所谓"数据挖掘"的一种更广义的说法，即从各种媒体表示的信息中，根据不同的需求获得知识。知识发现的目的是向使用者屏蔽原始数据的繁琐细节，从原始数据中提炼出有意义的、简洁的知识，直接向使用者报告。

相关书籍

基于数据库的知识发现(KDD)和数据挖掘还存在着混淆，通常这两个术语替换使用。KDD表示将低层数据转换为高层知识的整个过程。可以将KDD简单定义为：KDD是确定数据中有效的、新颖的、潜在有用的、基本可理解的模式的特定过程。而数据挖掘可认为是观察数据中模式或模型的抽取，这是对数据挖掘的一般解释。虽然数据挖掘是知识发现过程的核心，但它通常仅占KDD的一部分(大约是15% 到25%) 。因此数据挖掘仅仅是整个KDD过程的一个步骤，对于到底有多少步以及哪一步必须包括在KDD过程中没有确切的定义。然而，通用的过程应该接收原始数据输入，选择重要的数据项，缩减、预处理和浓缩数据组，将数据转换为合适的格式，从数据中找到模式，评价解释发现结果

1. 与数据挖掘的区别与联系 数据挖掘"的一种更广义的说法

中文名

知识发现

外文名

Knowledge Discovery in Database, KDD

知识发现

数据挖掘"的一种更广义的说法

数据分类

数据挖掘研究的重要分支之一

1. 基本任务

1. 1. 数据分类

分类是数据挖掘研究的重要分支之一，是一种有效的数据分析方法。分类的目标是通过分析训练数据集，构造一个分类模型(即分类器)，该模型能够把数据库中的数据记录映射到一个给定的类别，从而可以l立用于数据预测。

1. 1. 数据聚类

当要分析的数据缺乏必要的描述信息，或者根本就无法组织成任何分类模式时，利用聚类函数把一组个体按照相似性归成若干类，这样就可以自动找到类。聚类和分类类似，都是将数据进行分组。但与分类不同的是，聚类中的组不是预先定义的，而是根据实际数据的特征按照数据之间的相似性来定义的。

1. 1. 衰退和预报

这是一种特殊类型的分类，可以看作是根据过去和当前的数据预测未来的数据状态。通过对用衰减统计技术建模的数字值的预测，学习一种(线性或非线性)功能将数据项映射为一个数字预测变量。

1. 1. 关联和相关性

是指发现大规模数据集中项集之间有趣的关联或相关关系。关联规则是指通过对数据库中的数据进行分析，从某一数据对象的信息来推断另一数据对象的信息，寻找出重复出现概率很高的知识模式，常用一个带有置信度因子的参数来描述这种不确定的关系。

1. 1. 顺序发现

通常指确定数据组中的顺序模式。当数据的特定类型的关系已被发现时，这些模式同关联和相关性相似。但对关系基于时间序列的数据组，顺序发现和关联就不同了。概括总结：顺序发现是将数据映射为有关数据组的简练描述的子集或映射为数据库中一组特定用户数据的高度概括的数据。

1. 1. 描述和辨别

是指发现一组特征规则，其中的每一条都是或者显示数据组的特征或者从对比类中区别试验类的概念的命题。

1. 1. 时间序列分析

其任务是发现属性值的发展趋向，如从股票价格指数的金融数据、客户数据和医学数据等。它是用来搜寻相似模式以发现和预测特定模式的风险、因果关系和趋势。

知识类型

1. 1)广义型知识(Generalization)。

是根据数据的微观特性发现其表征的、带有普遍性的、高层次概念的、中观或宏观的知识。

1. 2)分类型知识(Classification&Clustering)。

反映同类事物共同性质的特征型知识和不同事物之间差异型特征知识。用于反映数据的汇聚模式或根据对象的属性区分其所属类别。

1. 3)关联型知识(Association)。

是反映一个事件和其他事件之间依赖或关联的知识，又称依赖(Dependency)关系。这类知识可用于数据库中的归一化，查询优化等。

1. 4)预测型知识(Prediction)。

通过时间序列型数据，由历史的和当前的数据去预测未来的情况。它实际上是一种以时间为关键属性的关联知识。

1. 5)偏差型知识(Deviation)。

通过分析标准类以外的特例、数据聚类外的离群值、实际观测值和系统预测值间的显著差别，对差异和极端特例进行描述。

知识发现的分类
1. 按挖掘的方法分有数据驱动型、查询驱动型和交互型

知识发现已经出现了许多知识发现技术，分类方法也有很多种，按被挖掘对象分有基于关系数据库、多媒体数据库；按挖掘的方法分有数据驱动型、查询驱动型和交互型；

1. 按知识类型分有关联规则、特征挖掘、分类、聚类、总结知识、趋势分析、偏差分析、文本采掘。
2. 知识发现技术可分为两类：基于算法的方法和基于可视化的方法。

大多数基于算法

知识发现

的方法是在人工智能、信息检索、数据库、统计学、模糊集和粗糙集理论等领域中发展来的

、

关联技术

1. 基于算法的方法和基于可视化
2. Web和搜索引擎
3. 分类
4. 数据结构化 标注属性标准化化

posted @ 2019-05-05 08:59 attilaxAti 阅读(62) 评论(0) 收藏举报

刷新页面返回顶部