基于数据库的知识发现(KDD)和数据挖掘还存在着混淆,通常这两个术语替换使用。KDD表示将低层数据转换为高层知识的整个过程。可以将KDD简单定义为:KDD是确定数据中有效的、新颖的、潜在有用的、基本可理解的模式的特定过程。而数据挖掘可认为是观察数据中模式或模型的抽取,这是对数据挖掘的一般解释。虽然数据挖掘是知识发现过程的核心,但它通常仅占KDD的一部分(大约是15% 到25%) 。
因此数据挖掘仅仅是整个KDD过程的一个步骤,对于到底有多少步以及哪一步必须包括在KDD过程中没有确切的定义。然而,通用的过程应该接收原始数据输入,选择重要的数据项,缩减、预处理和浓缩数据组,将数据转换为合适的格式,从数据中找到模式,评价解释发现结果。
知识发现的知识类型:
1、广义型知识
是根据数据的微观特性发现其表征的、带有普遍性的、高层次概念的、中观或宏观的知识。
2、分类型知识
反映同类事物共同性质的特征型知识和不同事物之间差异型特征知识。用于反映数据的汇聚模式或根据对象的属性区分其所属类别。
3、关联型知识
是反映一个事件和其他事件之间依赖或关联的知识,又称依赖关系。这类知识可用于数据库中的归一化,查询优化等。
4、预测型知识。
通过时间序列型数据,由历史的和当前的数据去预测未来的情况。它实际上是一种以时间为关键属性的关联知识。
5、偏差型知识。
通过分析标准类以外的特例、数据聚类外的离群值、实际观测值和系统预测值间的显著差别,对差异和极端特例进行描述。
相关问答