知识发现是从各种信息中,根据不同的需求获得知识的过程。知识发现的目的是向使用者屏蔽原始数据的繁琐细节,从原始数据中提炼出有效的、新颖的、潜在有用的知识,直接向使用者报告。
知识发现过程的多种描述.它们只是在组织和表达方式上有所不同,在内容上并没有非常本质的区别。知识发现过程包括以下步骤:
1、问题的理解和定义
数据挖掘人员与领域专家合作.对问题进行深入的分析.以确定可能的解决途径和对学习结果的评测方法。
2、相关数据收集和提取
根据问题的定义收集有关的数据。在数据提取过程中,可以利用数据库的查询功能以加快数据的提取速度。
3、数据探索和清理
了解数据库中字段的含义及其与其他字段的关系。对提取出的数据进行合法性检查并清理含有错误的数据。
4、数据工程
对数据进行再加工.主要包括选择相关的属性子集并剔除冗余属性、根据知识发现任务对数据进行采样以减少学习量以及对数据的表述方式进行转换以适于学习算法等。为了使数据与任务达到最佳的匹配.这个步骤可能反复多次。
5、算法选择
根据数据和所要解决的问题选择合适的数据挖掘算法.并决定如何在这些数据上使用该算法。
6、运行数据挖掘算法
根据选定的数据挖掘算法对经过处理后的数据进行模式提取。
7、结果的评价
对学习结果的评价依赖于需要解决的问题.由领域专家对发现的模式的新颖性和有效性进行评价。
数据挖掘是KDD 过程的一个基本步骤.它包括特定的从数据库中发现模式的挖掘算法。KDD过程使用数据挖掘算法根据特定的度量方法和阈值从数据库中提取或识别出知识,这个过程包括对数据库的预处理、样本划分和数据变换。
相关问答