随着市场竞争的日益激烈,市场已成为需求驱动的市场,客户满意度的提高是企业工作的重点,而质量是衡量客户满意度的量度,所以,先进的质量管理已经成为增强企业核心竞争力中的重要一环。
针对生产质量管理问题,从休哈特的统计质量控制理论开始,研究人员创立了数十种质量控制图,控制对象也从一元发展到多元,但是控制图和后来发展起来的统计控制诊断在质量管理方面的主要应用是针对质量的控制和诊断,属于事后控制和诊断。
随着数据仓库和数据挖掘技术的迅猛发展,商业智能成为企业预测和决策支持的核心技术,在产品质量控制、生产工艺流程质量控制、故障分析和库存管理等领域进行了应用,并且取得了良好的分析预测效果。
数据挖掘等商业智能方法是通用的,但由于数据有限,本文只针对质量预测问题,把数据挖掘和数据仓库等商业智能技术应用于生产管理中,在进行质量控制和诊断的基础上,尝试应用数据挖掘进行生产中产品质量的预测。主要解决:① 针对影响加工质量的多个相关因素,进行各因素的权重的判定,确定哪些因素是影响质量的关键因素;② 针对生产过程中各属性之间复杂的内在联系,对质量影响因素之间的关联关系进行量化分析,找出生产安排的最佳组合或者隐患;③ 基于加工记录的历史数据建立质量预测模型,模拟计划排产后的产品质量情况,从而根据质量预测结果进行针对质量的计划排产的优化,为企业提供计划排产方面的决策支持。
1 数据仓库与数据挖掘
在国际上,数据挖掘等商业智能技术主要应用于分析型客户关系管理系统和生物数据挖掘等海量数据领域。在国内生产管理方面,数据挖掘技术的应用取得了可喜进展,如宝钢结合质量分析应用数据挖掘技术,实现质量问题的诊断,进入了把商业智能技术应用到生产实际的新阶段。
数据挖掘应用的基础是建立数据仓库。数据仓库之父Inmon W H把数据仓库定义为:数据仓库是支持管理决策过程的、针对主题式的、综合式的、与时间有关而持久的数据集合。数据仓库是一种管理技术,它将分布在企业中的异构数据集成在一起,实现数据的采集、归纳和处理,使企业的业务工作环境和信息分析环境相分离,为数据挖掘的应用奠定坚实的基础。图1给出了从建立数据仓库到应用数据挖掘的整个过程。 (图片)
图1 商业智能应用的整体架构 把异构的数据抽取、清理、转载和更新到数据仓库中,是企业级的商业智能应用的基础,针对不同的主题建立数据仓库后(本文是针对质量问题),应用数据挖掘技术进行海量数据内在联系的发掘、建立相关主题的预测模型,指导联机分析处理的实现,为企业提供决策支持。
2 数据挖掘应用于质量管理
本文以某铝业集团(简称A公司)为研究对象。A公司主要是以生产铝箔为主,为了进一步提高客户的满意度,找出质量的隐性影响因素,利用A公司近年积累的生产加工和检验的记录,共计10万余条,建立以质量为主题的数据仓库,针对质量控制、诊断和预测的实际需求,利用数据挖掘中的属性权重分析、关联规则和分类分析分别进行质量影响因素的量化分析,影响因素的关联发现,进而建立质量的预测模型。这些数据挖掘方法的主要用途为:
(1)属性权重分析。通常是数据挖掘应用的第一步,用于确定数据样本中的各个属性取值变化对目标属性取值的影响程度;
(2)关联规则。在属性权重分析的基础上,挖掘属性之间取值的关联,明确它们之间的隐含关系;
(3)分类分析。用于离散值的预测,在以上两个方法应用的基础上,根据样本属性的取值,来预测样本属于什么分类。
2.1 建立质量影响因素的关联模型
2.1.1 数据准备和属性权重分析
使用数据提取、转换和装载工具基于事务型数据库建立质量相关的主题数据仓库,使用数据有效性过滤方法过滤掉不完整的记录,使用数字规范化方法把质量的检验结果归纳成布尔值(0不合格,1合格),在数据处理完毕后,利用属性权重分析找出各生产相关的属性影响质量的权重(如表1所示)。表1 属性权重分析结果
(图片)表1中的权重是根据对应属性取不同值时,影响加工质量的概率统计。其中权重大于零的属性被认为是与质量相关的属性,权重小于等于零的属性认为是对质量没有影响的属性。下面针对表1结果中权重大于零的属性,利用关联规则进行相关性分析,并对其数学基础进行简要介绍。
2.1.2 关联规则基本概念
设I={i1,i2,i3,…,in}是事件全集。设集合D是事件的集合(DㄈI)。A、B是两个事件,关联规则是形如A→B的蕴涵式,其中A∈I,B∈I。规则A→B在事件集D中成立,具有支持度s,其中s是D中的事件包含A∪B(A和B同时发生)的概率,记为P(A∪B)。规则A→B在事件集D中具有置信度c,c是在D中包含事件A的条件下也包含B的概率,即条件概率P(B︱A)。分别记为:
Support(A→B)=P(A∪B)Confidence(A→B)=P(B︱A)
2.1.3 关联规则的应用
关联规则在应用中,考虑的是事件的存在与不存在即布尔值0或1,所以它是布尔关联规则。
根据规则中涉及的数据维可以分为单维关联规则和多维关联规则。对于使用关联规则中的项或属性每个只涉及一个维的方法,是单维关联规则。
例1:WA→quality(“不合格”):表示工人A加工的产品为不合格(其中支持度和置信度省略)(符号说明:PZ:轧制工序,PRA:物料图号A,WA:工人A,CA:检验员A,MA表示设备A,其他类推;下文均符合这个约定)。
同样,对于使用多个维度进行关联的分析的方法,称为多维关联规则。
例2:WA∧PRK→quality(“不合格”):表示工人A在加工产品K时,加工质量不合格。
在关联分析模型中的维数可以任意的进行指定,不过指定的维数与数据挖掘进行的速度是成反比的,而且大于3个维度的置信度将会非常小,模型具有实际意义的可能性很小。表2是一个3个维度关联分析的运行结果,可以看到不同的属性的组合能够生产出合格产品的量化判定。以第一行为例:工人A在轧制工序加工图号为A的铝箔,产出合格铝箔的置信度为97.71%,支持度为4.85。可以看出工人A在轧制工序,加工A铝箔操作水平比较好(97.71%的合格率)。(图片) 针对以上的结果还可以发现属性之间微妙的联系,例如第二、三行综合起来可得:工人B加工相同产品A时,在不同的检验员进行检验的情况下,产品合格率相差5%。这说明:要么是工人加工水平低下,要么检验员检验结果有偏差。这为企业提供了决策支持的依据,但是这只是质量控制和诊断的应用,都是事后补救的做法。下面将着重介绍数据挖掘在质量预测方面的应用。
2.2 分类分析进行质量预测
分类分析是针对离散值进行预测的方法,这个方法的天然特性决定了它适合于解决质量这个布尔值的预测问题。
具体算法的实现采用准确率高、速度快的朴素贝叶斯分类。
2.2.1 朴素贝叶斯分类的概念
贝叶斯分类是统计学分类方法,它用于预测未知所属分类的样本属于哪个分类。其原理如下:
(1)每个样本由一个n维特征向量X={x1,x2,…,xn}表示,向量的分量分别表示n个样本属性的量度;例如:X={PRA,PZ,MA,WA,CA}即为一个样本。用于创建预测模型的样本集合称为训练数据集;用于评价模型准确度的样本集合称为测试数据集。这两个数据集均来自于已知样本分类的历史记录,采用随机抽取的方式把历史记录分割成训练数据集和测试数据集。此外,应用预测模型进行分类预测的未知所属分类的样本集合称为应用数据集。
(2)每个样本都应该属于一个特定的分类,设有m个分类C1,C2,…,Cm,如果未知所属分类的样本要属于分类Ci,当且仅当P(Ci︱X)>P(Cj︱X)(1≤j≤m,j≠i),其中X表示一个未知所属分类的样本,Ci表示分类Ci,P(Ci︱X)则表示X属于分类Ci的概率;同时根据贝叶斯定理P(Ci︱X)=(图片)可以把判定条件简化为:i的取值使得P(X︱Ci)P(Ci)=[(图片)P(Xk︱Ci)]P(Ci)(a式)取值最大;即把未知所属分类的样本代入a式中,确定i(1≤i≤m)在取什么值的情况下,使得P(X︱Ci)P(Ci)的值最大,那么样本X就属于该分类。
2.2.2 分类分析的应用
应用分类分析需要3个主要步骤:
第一步:建立预测模型。本例中使用表1中的前5个属性作为样本属性,同时简化质量的分类,质量状态只分为合格和不合格两类。使用已知分类结果的训练数据集计算出a式中P(Xk︱Ci)和P(Ci)的值(i=1,2;1≤k≤5),这些概率已知后,任给一样本X就可以根据a式判定出它属于哪个分类,这样预测模型就建立了(如图2所示)。(图片)
图2 建立分类模型 第二步:模型准确性的评价。利用同样已知分类结果的测试数据集来评价第一步中生成的预测模型,即把测试数据集的预测结果和实际情况进行比较,评价的结果为预测矩阵(如表3所示),行标表示实际发生的结果,列标表示预测的结果,对角线上的数据表示预测模型预测正确的次数,数据部分反对角线上的两个数据是预测结果与实际结果不符的情况发生的次数;同时可以获得模型的准确程度为99.2%。表3 预测矩阵(0:不合格,1:合格)
(图片)如果用户对模型不满意,可以通过调整贝叶斯方法入口参数值,重新进行第一步,直到获得满意的准确度。入口参数即为a式中P(Xk︱Ci)的人为设定的最小参考值,当P(Xk︱Ci)小于设定的入口参数时,P(Xk︱Ci)的值由设定的入口参数值替代,这个参数设置的目的是为了保证样本属性k取值为xk时,把样本预测为属于分类Ci的概率,入口参数通常结合属性权重分析结果设定,入口参数在0~1之间变化。
第三步:预测模型的应用(如图3所示)。用户对模型准确度满意后,就可以将分类模型应用于应用数据集;这里的应用数据集是通过生产计划预排产,生成的具有任务分配情况、加工工艺信息和检验标准,但是没有任务完成情况的数据集。应用数据集存储在一个数据表中,把这个数据表中的记录分别作为预测模型(a式)的输入预测出计划排产后加工质量的结果;可以:① 把预测结果的产品合格率与历史上相同产品的合格率进行比较,判定排产是否需要优化;② 通过预测模型的准确度和产品的合格率,推算出应投产量,以确保生产订单的交付。实现以产品加工质量为出发点,降低质量成本为目的,为计划排产提供决策支持。(图片)
图3 应用分类模型 4 结 语
本文将数据仓库和数据挖掘等商业智能技术应用于质量管理之中,在进行质量控制和深层次质量诊断的基础上,通过建立质量预测模型,模拟计划排产的加工质量情况,从质量角度出发,获得计划排产的预测结果,为企业的计划排产提供质量方面的决策支持,提高产品的质量,降低生产过程中的质量成本,从而提升企业的核心竞争力。
11/3/2008
|