数据库知识发现 (KDD) 是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。它由九个步骤组成,从开发与理解应用领域开始到知识发现的行动。数据挖掘是其中的一个步骤 (第七步),而数据库知识发现 (KDD) 过程主要是在一种特定的表现形式或一套这种表征中寻找有趣的模式。
数据库知识发现(KDD)应用的领域:
天文学: SKICAT,一种被天文学家用来分析图像,对所研究的天空中的对象的图像进行分类和编目的一种系统。
市场:分析客户的数据库来识别不同类别的客户和预测其行为。
投资:使用专家系统、神经网络和遗传算法来管理文件夹、欺诈检测。HNC和Nestor Falcon PRISMA监控信用卡欺诈和CASSIOPEE的应用,在三大欧洲航空公司利用聚类推导出失败的种类,以诊断和预测波音737的问题。
金融业:FAIS被用来识别金融交易中可能出现的洗钱活动。
电信业:评估用以从警报流中定位频繁发生警报的事件,并作为一种规则显现它们,提供一种工具,进行分组和整理。
数据清洗:合并-清除被用来识别社交帮助的请求;而高级人才选拔是一种专门进行数据挖掘帮助NBA教练整理和解释来自NBA比赛的数据。
互联网上FIREFLY帮助个人音乐推荐,CRAYON允许用户创造他们自己的免费报纸,而Far_cast从各种各样的来源中自动寻找用户信息,等等。
什么是数据仓库以及它有哪些阶段?
数据的收集和清洗的流行趋势是为了将数据转换成可用于在线分析和对决策制定的支持。数据仓库在两个重要的方面帮助数据库知识发现 (KDD):
数据清洗:在某种程度上,企业认知到企业内各种书据统一的数据逻辑视图的重要性,开始在把各类数据反射到唯一呈现时要作的数据清洗。
数据访问:你必须创造统一的、明确定义的方法去访问数据并提供过去是很难获得的数据路径 (如,数据离线存储)。
定义联机分析处理(OLAP)
它是一种用于商业智能(BI)的解决方案,包括对来自大型数据库或交易系统的汇总数据的多维结构的咨询。联机分析处理(OLAP)工具专注于提供多维的数据分析,优于SQL的计算总计和径直穿过多维度的控制。联机分析处理(OLAP)工具是趋向于简化,并支持交互式数据分析,但数据库知识发现 (KDD) 工具的目标是尽可能的过程自动化。
数据库知识发现(KDD)过程的阶段
对应用领域的开发和认识,并有相关的经验知识和从客户的角度识别数据库知识发现 (KDD) 过程的目标。
创设一个数据集的目标:选择数据集,或者聚焦于一组用于发现的变量或数据样本。
数据清洗和预处理。基本操作包括去除错误数据(如果有的话),收集必要的信息建模或负责错误数据,决定处理缺失数据的策略以及负责信息的时间顺序和已知的变化。
数据压缩和投影:根据任务的目的寻找有用的特征呈现数据。通过降维的方法或转换,考虑到的有效的变量数目可能减少或可以找到不变量数据的表示。
匹配过程目标:特别数据挖掘方法 (步骤1)的数据库知识发现 (KDD)。例如,总计、分类、回归、聚类和其它。
建模和探索性分析与假设的选择:选择算法和数据挖掘,并选择用于寻找数据模式的方式方法。这个过程包括决定哪一种模型和参数可能是适当的(如,分类数据模型不同于在真实矢量模型)并与数据挖掘方法相匹配,尤其与数据库知识发现(KDD)过程的一般方法相匹配 (例如,最终用户也许会更有兴趣了解模型的预测能力)。
数据挖掘:寻找一种特定的表现形式或一组这些表征的兴趣模式,包括分类规则或树型、回归与聚类。用户可以大大帮助数据挖掘方法以正确执行前面的步骤。
解释挖掘模式,可能为另外的迭代再回到步骤1至7之间的有些步骤。这一步可能也包含了提取模式的可视化和模型或给予绘制模型的可视化数据。
知识发现的行动:直接利用知识,结合另一个系统的知识更进一步地行动,或简单地记录并向利益相关者报告。这个过程还包括检查和分辨出与先前所相信的知识之间潜在的冲突。
什么是数据挖掘
数据挖掘是数据库知识发现(KDD)过程中应用数据分析和发现算法的一个步骤,在可接受的计算效率的局限性之内,在数据上产生一种特殊的列举模式(或模型)。要注意模式空间通常是无限的而且模式的列举包括对那个空间某种形式的搜索。
我们使用两种主要的数学形式来调整模型:
统计学上允许模型中有不确定的影响
逻辑上:完全是确定的。
数据挖掘方法
分类(Classification)是学习一种将某一项数据映射(分类)到几个预定义分类中的一种功能。
回归(Regression)是学习一种将某一项数据映射到取值为R的预测变量的功能。
聚类(Clustering)是一种常见的描述性任务旨在确定在一组有限级的类别或聚类来描述数据。
总计(Summarization) 包括为一个数据集找到一种简洁描述的方法。
依赖(Dependency) 模型是要找到一种模型来描述存在于两个层次上依赖模型之间显著的依赖性:
水平结构 (Level Structural) 模型说明(通常是图形形式) 哪一种变量在本地依赖于其它变量。
数量模型说明用于一些数值尺度来表明依赖性的力度。
对变化和差异的检测集中在从先前的测量或规范值中发现最值得注意的数据
数据挖掘算法的组件
模型的表示是用来描述模式发现的语言。
评价标准是模型在一个特定的模式上(一个模型及其参数)如何满足数据库知识发现 (KDD) 过程的目标的定量语句(或功能调整)。
搜索方法由两个组件组成:
搜索参数
模型搜索
一旦模型表示方法 (或表示方法的家族)和模型评价标准建立起来,那么数据挖掘的问题就降至为仅仅是一种优化任务:从选择的家族中找出参数和模型以优化评价标准。
数据挖掘方法的示例:
决策树(Decision Tree)和规则利用单变量区分队列,有一种表示方法的简单形式,使所推论的模型比较容易为用户所理解。然而,特殊决策树或规则表示法的限制会限制功能形式的模型。如果扩展模型空间,允许更多的功式 (如在任意角度上的多元超平面),那么模型在预测能力上更强大,但会更加难以理解。在很大程度上,他们依靠在模型的评价中基于可能性的方法,依据模型的不同复杂性来解决问题。
非线性分类和回归的方法由一族的预测技术组成,让基本功能(函数,曲线,多项式)线性和非线性的组合适合于输入变量的组合。
实例使用的方法基于来自数据库的代表样本去接近一种模型,就是说,对新实例的预测来自于那些以预测见长的模型中相似的例子的属性。技术包括最近邻分类、回归算法和系统思想。基于实例方法的一个潜在不利(相对基于树的方法)是,它需要一个明确的距离来评估数据点之间的距离。
概率图形依赖模型的概率依赖说明使用一种图形结构。在它最简单的形式里,模型说明的变量之间直接成比例。
关系学习模型尽管树的表示法和决策规则受一种命题逻辑所限,关系学习(也称为归纳编程逻辑)使用了标准的一阶让语言更为灵活。
数据挖掘问题的应用
实际途径:针对一些类似工程使用数据库知识发现 (KDD)。这些工程已用过其它先进应用系统。它们包括:
一种应用程序的潜在影响。
简单地缺乏可选择的解决方案。
在技术的使用上有强大的机构支持。
对于处理个人信息的应用系统,要考虑法律和隐私的问题。
技术标准,包括的注意事项如:
充分可以被利用的数据。
具有相关性的属性。
较少的数据错误
对业务领域有一定的了解
研究和应用上的挑战
大型数据库:拥有数以百计的表和字段和成千上万的记录的常用数据库。
高维度:在数据库中不仅有大量的记录,也可以有许多字段(属性、变量),所以维度的问题会很高。
过度适合:当算法用一个有限的数据集合为一种特定的模型找到最好的参数时,它不仅能为一般模式的数据建模,还可以针对任何一种特有噪音的数据集建模,导致在一种低性能的模型中测试数据。
确定统计的有效性:在系统寻找数个可能的模型时会有出现的一个问题。
数据和知识的改变:数据的迅速改变化可以让以前发现的模式变得无效。此外,在一个应用系统中指定数据库的测定变量可以进行修改、删除或随着时间的推移与新的指标之间有冲突。
缺失数据和噪音:这个问题在业务数据库中尤其严重。如果数据库的设计没有考虑到这些问题的发现,可能会丢失重要的属性。
字段之间复杂关系:分层结构的属性或值,属性之间的关系,在对数据库内容的知识表示法的更复杂的方式,都需要能有效地利用这些信息的算法。
理解模式:在许多应用系统中重要的是让发现更易于被人理解。
用户交互和先前的知识:一些目前的方法和工具并不是真正的交互式数据库知识发现(KDD),而且除了一种简单的方法,不易于吸收该问题的先前的知识。业务知识的利用在数据库知识发现(KDD)的全过程中都是重要的。
与其他系统的整合:一种系统的独立发现可能不是非常有用的。典型的整合问题包括:数据库管理器的整合(如通过一种查询界面),电子表格和可视化工具的整合,实时读数的传感器的适应。
9/5/2011
|