全球商务智能软件市场在最近几年得到了迅速发展,企业用户已不再仅仅满足于用软件来处理日常的事务,而是希望从ERP、CRM、SCM、0A以及原有的软件系统中挖掘有用的数据资产信息,来帮助企业进行决策。随着我国加入WT0,我国在许多领域,如金融、保险等领域将逐步对外开放,这就意味着许多企业将面临来自国际大型跨国公司的巨大竞争压力,许多企业都把数据看成宝贵的财富,纷纷利用商务智能发现其中隐藏的信息,借此获得巨额的回报。该系统正是基于此种环境下进行设计开发的,系统以数据挖掘为主,结合数据仓库、在线分析处理技术,通过先进的模型库及方法库对数据进行处理,从而达到帮助企业进行有效决策的目的。
一、技术背景
1.数据仓库系统
数据仓库系统是利用计算机和数据库技术的最新发展,把整个企业的数据,无论其地理位置、格式和通信要求统统集成在一起,并能把当前使用的业务信息分离出来,保证关键任务的OLTP应用的安全性和完整性,同时可以访问各种各样的数据库。数据仓库不是单一的产品,而是由软硬件技术组成的环境。它把各种数据库(源数据库)集成为一个统一的数据仓库(目标数据库),并且把各种数据转换成面向主题(Subject Oriented)的格式,能从异构的数据源中定期抽取、转换和集成所需要的数据,便于最终用户访问,并能从历史的角度进行分析,最后做出战略决策。
2.在线分析处理系统
在线分析处理系统中使用的OLAP分析(联机事务处理分析)可以根据用户的需要,从不同的角度,对数据进行切片分析。每个不同的角度,代表了数据分析中的一个“维”,因此也称“多维分析”。另一方面,OLAP分析也可以提供钻取功能,能够将某一点的数据直接读取出来。OLAP分析比传统的统计报表系统有了很大的发展,能够提供更多、更丰富的报表和视图,用户使用更方便,编程也更容易。在邮政系统建立了数据仓库之后,就可以进行OLAP分析,为管理人员掌握各种业务情况,提供技术手段的支持。
在采用OLAP Service中的数据挖掘功能时,其中提供的两类算法分别是基于决策树的分类和基于决策树的聚类,例如针对市场部门的聚类算法将客户根据费用情况加以聚集,以期发现处于同一消费水平的客户的共同特征,便于制定政策,吸引客户。这方面的努力我们将会进一步持续进行,以保证有足够的海量数据而发现其中的规律。
3.数据挖掘系统
数据挖掘是从大型数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术,目的是帮助决策者寻找数据间潜在的关联,发现被忽略的要素,而这些信息对预测趋势和决策行为也许是十分有用的。数据挖掘技术涉及数据库、人工智能(AI)、机器学习和统计分析等多种技术。
数据挖掘分类涉及的学科领域和方法很多,有多种分类方法。根据开采对象分,有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体数据库、异质数据库、遗产数据库及环球网Web。根据开采方法分,可粗略地分为:机器学习方法、统计方法、神经网络方法和数据库方法。在机器学习中可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。本文讨论的对高速数据链的挖掘就是一种基于决策树的方法。根据开采目标分,可分为:数据处理、预测、回归、分类、连接(关联分析)、模型可视化、探索性数据分析等。应该注意的是,具有不同的目标的不同方法可能会被相继应用。例如,为了确定哪些顾客喜欢购买新产品,商务分析员可能会首先利用聚类方法来划分顾客数据库,然后应用回归方法对每个划分簇预测购买行为。
系统数据挖掘模式有很多种,按功能可分有两大类:预测型(Predictive)模式和描述型(Descrip—tive)模式。
二、系统实现
1.系统主要内容
该系统是一个决策支持过程系统,它主要基于AI、统计学等技术,高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。
系统的主要特点:
(1) 基于数据仓库和新型的元数据管理,按照主题创建数据仓库,并通过元数据进行管理和维护;
(2) 数据的抽取、转换、装载等预处理方便,支持多维数据在线分析处理(OLAP);
(3) 提供决策树、支持向量机、粗糙集、模糊聚类、基于范例推理、统计方法、神经计算等多种数据挖掘算法,支持特征抽取、分类、聚类、预测、关联规则发现、统计分析等数据挖掘功能,并支持高层次的决策分析功能;
(4) 挖掘平台利用扩展数据仓库某些功能和特征的数据库管理系统(如SQL Server,Sybase,Oracle,Informix)作后台,可以与现有的系统无缝的连接,从关系型数据库、文本、万维网等外部数据源中抽取数据费用低,周期短;
(5) 实现了可视化的任务编辑环境,以及功能强大的任务处理引擎,能够快捷有效地实现各种数据转换和数据挖掘任务;
(6) 可扩展性好。转换规则和挖掘算法是封装的、模块化的,系统提供了一个开放的、灵活通用的接口,使用户能够加入新的规则和算法。
2.模型库与方法库
企业经营活动是复杂的和多元化的,不可能采用一个或几个模型或方法就能够为企业提供有效的分析与决策支持,因此系统构建用户化的模型库与方法库,就成为企业数据发掘与决策支持的重要数据基础,没有符合企业实际情况的模型与方法,就不能进行准确的分析与挖掘。
(1) 聚类模式
聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小。与分类模式不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪一(几)个数据项来定义组。一般来说,业务知识丰富的人应该可以理解这些组的含义,如果产生的模式无法理解或不可用,则该模式可能是无意义的,需要回到上阶段重新组织数据。
主要算法包括:BIRCH算法、CURE算法、DBSCAN算法、K-pototypes算法、CLARANS算法、CLQUE算法等。例如,一家银行希望找到基于所开账户类型的客户细分。聚类分析后得出如下图所示的三个分组,不同的彩色段代表不同分段内客户所开的不同账户类型的百分比。
(图片) 第一个分段所开的所有账户具有相等的百分比,这类用户用“一般用户”(General Customers)表示。第二个分段抵押(monrtagages)、投资账户(investment accounts)、家庭改善性贷款(home improvement loans)和存单(CDS)类账号的比例比较高,这一类用户称为“长期用户”(Long-trem Customers)。第三个分段支票账户(checking accounts)、储蓄账户(saving accounts)和个人贷款(personalloans)的比例较高,这类用户称为“短期用户”(Short-term Customers)。这样银行可以发现不同分段间的其他行为差异,尤其是消耗(attrition),然后根据这些特点对不同的分段区分处理。
(2) 回归模式
回归模式的函数定义与分类模式相似,它们的差别在于分类模式的预测值是离散的,回归模式的预测值是连续的。如给出某种动物的特征,可以用分类模式判定这种动物是哺乳动物还是鸟类;给出某个人的教育情况、工作经验,可以用回归模式判定这个人的年工资在哪个范围内。虽然许多商业模型都不是线性的,但可以通过对数的转换来把它变成线性的。如下图所示的销售力量大小对收入对数的关系。也可以用非线性回归对模型进行评估。
(3) 关联分析模式
相关分析模式是对两个变量之间关系的测度。例如,购买干酪和饼干的高度相关性表示这些产品最有可能在一起销售。相关可能是正的,也可能是负的。正相关表示一个变量在相关变量取高值时也取高值。负相关表示一个变量在相关变量取低值时反而取高值。正相关对发现趋于一起购买的产品非常有用。负相关可用于产品的多样化。
(4) 因子分析模式
因子分析模式是另一种数据简化技术。但是,不同于聚类分析,因子分析从数据中建立一个模型。集中技术可以发现潜在的因子,又称“隐含变量”,并为这些因子建立基于数据中变量的模型。
假设您进行一次市场研究调查来发现9种产品特性的重要性,并假设您发现3个因子。载荷(load)高于这些因子的变量会为您提供一些关于这些因子可能是什么的信息。例如,三种特性(如技术支持、客户服务和培训课程的实用性)的载荷都高于一个因子,这个因子叫做“服务”。这种技术非常有助于发现重要的隐含特征,这些特征可能未被观察,但是可能由被观察的变量发现。
因子分析的另一个应用是基于相似购买方式的产品分组归类。应用因子分析,可以找出交叉和捆绑销售的机会。在这个例子中,因子分析告诉我们产品被分成4个不同的组,然后建立一个如上图所示的表格。这个表格列出所有产品,并显示每种产品属于哪个因子(或组)。图中对因子的检查表明这些因子有概念上的意义。
三、结语
综上所述要实现一个智能的、高效的决策支持的综合数据处理系统,它需要基于AI、统计学等技术,高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。系统不能单单靠几个模型或方法就能够为企业提供有效的分析与决策支持,因此,系统必须构建于用户化的模型库与方法库之上,这个模型库与方法库是企业数据发掘与决策支持的重要数据基础,没有符合企业实际情况的模型与方法,就不能进行准确的分析与挖掘。本系统正是建立在模型库与方法库之上实现了一个基于商务智能的高效的决策支持系统。
9/13/2011
|