摘 要:随着信息技术的发展,人们采集数据的手段日益丰富与高明,由此积累的机械设备故障数据日益膨胀,而且高维数据也日益成为主流。如何从这些海量数据及高维特征中选出有用的数据进行有效的故障诊断成为一件困难的事情。计算机性能的日益更新和数据库技术的快速发展,使得数据挖掘这一融合多种分析手段,从大量数据中发现有用知识的方法应运而生,为上述问题的解决开辟了一条道路。本文就详细论述了应用数据挖掘技术进行机械设备故障诊断的全过程。
关键词:数据挖掘;机械设备;故障诊断;粗糙集;人工神经网络;决策树[b][align=center]The Research of Machinery Fault Diagnoses ba
sed On Data MiningCHU Jian-li CHEN Bu-ying[/align][/b]
Abstract:As information technology development,data collection method plenty and advisability,there are more and more data a
bout machinery fault.Some are multidimensional.How to selec
t useful data from so large data is a difficult thing.Now computer capability is updating and databa
se technology is developing fleetly.As a result data mining technology appears.It includes many analysis methods and can find out useful knowledge from large data.This paper discusses the whole process a
bout how to use data mining technology solve the problem of machinery fault diagnoses.
Key Words:Data Mining;Machinery;Fault Diagnosis;Rough Set;Artificial Neural Network;Decision Tree
1. 引言 伴随着科学技术的飞速发展和市场竞争的日益激烈,工业生产不断向大型化、连续化、高速化、重载化和智能化方向发展,从而导致了机械设备的结构以及故障产生的机理日益复杂,有时还表现出非线性、随机性和突发性。因此,将故障诊断技术应用于保护国民经济支柱产业的关键设备,将成为工业发展的必然趋势。随着信息技术的发展,人们采集数据的手段日益丰富与先进,由此积累的数据日益膨胀,数据量达到GB甚至TB级,而且高维数据也日益成为主流,这些海量数据及其高维特征使得传统的数据分析手段相形见绌。计算机性能的日益更新,使得人们能够期望计算机能够帮助我们分析与理解数据,帮助我们以丰富的数据为基础做出正确的决策。于是数据挖掘这一融合多种分析手段,从大量数据中发现有用知识的方法就应运而生,并在使用中蓬勃发展。 数据挖掘是数据库中知识发现过程的一个重要步骤,它是从大量不完全的、有噪音的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的但又是有用的信息和知识,更广义的说法为数据挖掘是在一些事实或观察数据集合中寻找模式的决策支持过程[1]。它综合了人工智能、模式识别、计算智能(人工神经网络、遗传算法)、数理统计等先进技术,并已应用于工业、商业、金融等行业,本文就把数据挖掘应用于机械设备故障诊断中。
2. 数据挖掘的常用技术 根据挖掘的途径、方法、发现知识的种类、挖掘的数据库类型等不同的角度,数据挖掘的分类不同。目前,常用的数据挖掘技术有[2,3]: ⑴ 决策树 作为数据挖掘中核心算法之一,决策树算法通常被用于从海量数据中挖掘出有效的、正确的且可理解的模式。决策树的优点是不受原始数据的约束,可以是数值型的和非数值型的数据,操作直观,容易理解。国际上最有影响和最早的决策树方法是J.R.Quinlan提出的ID3方法。基本思路是选择具有最高信息增益的属性作为当前节点的测试属性。对测试属性的每个已知的值,创建一个分支,并据此划分样本,根节点属性的每个值都是一个子集。这个过程可以递归地应用到每个子树上进一步划分,直到子集中的所有元素都是同一类时停止划分,便生成一棵决策树。 ⑵ 遗传算法 遗传算法是借鉴生物遗传机制的一种随机化搜索算法,其主要特点是群体搜索和群体中的个体之间的信息交换。遗传算法尤其适用于处理传统方法难以解决的复杂的和非线性的问题。把它用于数据挖掘中,常常把任务表示为一种搜索问题,利用遗传算法的搜索能力找到最优解。但是遗传算法有其应用的局限性,它需要的参数太多,对许多问题编码困难,计算量大。 ⑶ 人工神经网络 人工神经网络在数据挖掘中应用广泛,它是基于生物神经系统的结构和功能建立起来的模拟人脑神经元的一种方法。基于神经网络的数据挖掘方法通过模仿人的神经系统来反复训练/学习数据集,从待分析的数据集中发现用于预测和分类的模式。以MP模型和HEBB规则作为基础,人工神经网络可分为三类:①前馈式网络:主要用于模式识别和预测等方面;②反馈式网络:主要用于联想记忆和优化计算;③自组织网络:主要用于聚类。 ⑷ 粗糙集 粗糙集方法是一种新的数学分析工具,能够处理不确定、不精确、不完整和不一致的信息,能够进行信息简化和从经验中获取知识。其基本原理是基于等价类的思想,而这种等价类中的元素在粗糙集中被视为不可区分的,其基本方法是首先用粗糙集近似的方法来将信息系统(关系)中的属性值进行离散化;然后对每一个属性划分等价类,再利用集合的等价关系来进行信息系统(关系)的约简;最后得到一个最小的决策关系,从而便于获得规则。其主要优点就是不需要任何关于数据的初始的或附加的信息。 粗糙集理论建立在分类机制基础之上,即它把知识的描述和事物的分类联系在一起。一个知识表达系统可表示为: S=(U,C,D,V,f) 式中:U表示论域,C∩D=A是属性集合;子集C和D分别称为条件属性和决策属性集合;
是属性值的集合;V[sub]a[/sub]表示了属性
的范围;
为一信息函数,它指定了U中每一对象x的属性值。这种描述方式使得知识表达系统可以用二维表格来表示,这样的表格称为决策表。 ⑸ 模糊论方法 模糊论方法利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别等。对数据挖掘系统进行分类,模糊逻辑是有用的,它提供了在高抽象层处理的便利,一般地,模糊逻辑在基于规则的系统中的使用涉及: ① 对于给定的新样本,可以使用单个模糊规则,每个可用规则为分类的成员关系都有贡献,我们可以对每个预测分类的真值求和。 ② 将属性值转换成模糊值。 ③ 组合上面得到的和,得到一个系统返回的值。 ⑹ 关联规则 一个大型数据库,其各个字段之间存在着各种各样的关系,这种关系就隐含在数据库所包含的数据中,关联规则挖掘的目的是找出这些隐藏的关联。 一般关联规则挖掘问题可分为两个步骤寻找支持度大于预定义最小值的数据项集,在这两个步骤中关联规则挖掘效率取决于第一步,当得到数据集后,相应的关联规则可以直接得到。因此,关联规则挖掘的主要工作在于第一步的实现。Apriori和DHP算法可以用于寻找待求数据项集。 ⑺ 朴素贝叶斯模型、 可以使用朴素贝叶斯模型建立分类条件分布,假定所有变量对于给定的分类是条件独立的,P(X|C[sub]K[/sub])=P(X[sub]1[/sub],…,X[sub]P[/sub]|C[sub]K[/sub])=∏P(X[sub]j[/sub]|C[sub]K[/sub]),1≤k≤m,这种近似允许用一元分布的乘积来近似需要O(K[sub]P[/sub])个概率的完整条件分布,近似后每个类所需的概率总数是O(K[sub]P[/sub])。因此条件独立模型对变量数P是线性的,而不是指数的。[align=center]
图1 数据挖掘系统的框架[/align]
3. 数据挖掘在机械设备故障诊断中的应用 3.1 应用的基本原理 故障诊断的实施主要分为四个步骤:信号采集、特征提取、模式识别和诊断决策。把数据挖掘应用在机械设备故障诊断中,就是根据机械设备的历史运行记录,对它可能的运行状态进行分类并对它的运行趋势进行预测。故障诊断的核心是模式识别,对故障诊断的过程,就是模式获取及模式匹配的过程。机械设备故障诊断的主要问题是故障特征模式提取,也就是知识获取的问题。下面是数据挖掘应用于机械设备故障诊断的系统框架图,见图1所示。 3.2 机械设备故障诊断的数据挖掘技术策略 进行机械设备的故障诊断,首先要获取机械设备的大量的运行参数,即要有机械设备平稳运行、正常工作时的数据;更要有机械设备出现故障时的数据,并且应已获知故障的类别。这样,由已知故障类别、故障发生时的各运行参数、历史记录组成的数据库或数据仓库便构成了数据挖掘的训练/学习样本库。数据挖掘的任务就是从这些海量的杂乱无章的样本库中找出隐藏在其中的内在规律,提取出不同故障的特征。 在数据挖掘处理分类问题时,对同一问题可根据需要选用不同的分类方法,依据不同的判决规则完成分类工作。在机械设备故障诊断的数据挖掘技术策略中,采用发展较为成熟的粗糙集与决策树理论结合来处理实际问题,即利用粗糙集理论用于数据挖掘的数据预处理、属性约简等方面,但由于粗糙集理论的分类是确定的,缺乏交互验证功能,结果往往不稳定,精度不高;利用决策树方法来产生分类所用到的规则,有可能形成新的有效的分类方法。依据这些规则,对新来数据进行判别并对故障数据进行归类,识别出故障的种类,依此找到故障的原因并消除故障。图2是基于数据挖掘技术的故障诊断策略示意图。[align=center]
图2 基于数据挖掘技术的故障诊断策略示意图[/align] 3.3 基于粗糙集和决策树的数据挖掘算法 基于粗糙集和决策树结合的数据挖掘算法过程可以描述为:不断从条件属性C中取出相对于决策属性较为重要的属性与核形成新的条件属性集,如此不断重复,直到所得到的属性集,使得决策属性D对其依赖度等于D对C的依赖度为止。在具体的约简过程中,根据领域 诊断对象知识,对特别重要的属性可首先人为地取出,与核一起形成寻找最佳约简的起始点。在不断从C中取属性过程中,要选择那些D对其依赖度较大的属性,这就需计算加入该属性后依赖度的变化,依赖度增加越多,说明该属性越重要,应优先被选入约简集。然后,利用信息增益作为启发信息,选择能够最好地将样本分类的属性,该属性成为该节点的测试属性。对测试属性的每个已知的值,创建一个分枝,并据此划分样本。算法使用同样的过程,递归地形成每个划分上的样本判定树,一旦一个属性出现在一个节点上,就不必考虑该节点的任何后代上。
4. 结论 由上面的分析我们不难看出,数据挖掘技术与传统的科学方法不同,它是一种在数据驱动下发现已有理论不能预测模式的新方法。它在机械设备故障诊断的开发和应用中有着广阔的应用前景。可以相信,随着理论研究和实际应用的不断深入,数据挖掘理论必将促使机械设备故障诊断技术进入一个新的发展阶段。
5. 参考文献: [1].鞠可一,葛世伦.基于数据挖掘技术创建企业本体.微计算机信息:2006(22):228~230. [2].姚洪波. 杨炳儒..Web日志挖掘数据预处理过程技术研究.微计算机信息:2006(22):234~236. [3].杨静,张绍兵,张健沛.数据挖掘技术在优化与机械设备故障诊断中的应用[J].煤矿机械:2005(9):146~147.