您的当前位置：首页 Fast RVM污水处理故障诊断方法与制作流程

Fast RVM污水处理故障诊断方法与制作流程

来源：花图问答

本技术公开的本技术公开了一种Fast？RVM污水处理故障诊断方法，包括以下顺序的步骤：

1)剔除掉污水数据中待识别样本中属性不完整的样本，由于各样本属性量纲的不同，对其进

行归一化处理，归一化到[0,1]区间中；2)基于聚类的快速相关向量机多数类数据压缩模块；

3)虚拟少数类向上采样的少数类数据扩充模块；4)“一对一”的快速相关向量机多分类模型；5)快速相关向量机污水故障诊断建模。本技术通过基于聚类的快速相关向量机对多数类数据

压缩和虚拟少数类向上采样方法对少数类数据扩充，降低了污水数据的不平衡性，同时采用

Fast？RVM对污水生化处理过程建立多分类模型，有效提高了对污水生化处理系统的故障诊

断精度。

权利要求书

1.一种FastRVM污水处理故障诊断方法，其特征在于，包含以下顺序的步骤：

S1.剔除污水输入和输出的数据中的异常点，对其进行归一化处理，归一化到[0,1]区间中；S2.基于聚类的快速相关向量机多数类数据压缩模块，将训练样本中的多数类样本数据采用K-means方法进行聚类；

S3.虚拟少数类向上采样的少数类数据扩充模块将训练样本中的少数类样本数据采用SMOTE

进行数据扩充；

S4.将处理后的所有类的样本数据重新组合构成新的训练集，建立“一对一”的快速相关向量

机多分类模型，对建好的分类模型输入测试集进行投票，得到测试结果，从而实现对污水处理的整体运行状态的识别。

2.根据权利要求1所述的FastRVM污水处理故障诊断方法，其特征在于，所述的步骤S2，具

体为：

S201、假设多数类样本集X＝{x1,x2,…,xi,…,xn}为n个Rd空间的数据，从n个数据对象中随机

选择k个对象作为初始的聚类中心；

S202、然后对剩余的样本对象则根据与各个聚类中心的距离分别分配到距离最相近的聚类

中心中；计算距离的公式如下，假设cj为第j个类的中心，则xi与cj的距离为：

S203、根据集合中的点更新每个类的聚类中心，假设第j个类中的样本为即包含了nj个样

本，则该类的聚类中心为其中为类中心cj的第m个属性，计算公式如下：

S204、不断重复S202、S203步骤，直到标准测度函数收敛为止，采用均方差作为计算标准

测度函数，其形式为：

将多数类样本聚类后，对聚类后的样本类别进行快速相关向量机分类建模，从而通过建模获取相关向量。

3.根据权利要求1所述的FastRVM污水处理故障诊断方法，其特征在于，所述的步骤S3，具

体为：

S301、对少数类中的每一个样本x，以欧几里得距离为标准计算它到少数类样本集中每个样

本的距离，获得其中k个最近邻，并记录近邻样本的下标，这里k取5；

S302、根据向上采样的倍率N，对每一个少数类样本x，从其k个最近邻中随机选取N个样

本，记为y1,y2,…,yN；

S303、在原样本x与yj(j＝1,2,…,N)之间进行随机线性插值，构造新的少数类样本pj，即新样

本：

pj＝x+rand(0,1)*(yj-x),j＝1,2,…,N(4)

其中rand(0,1)表示区间(0,1)内的一个随机数。

4.根据权利要求1所述的FastRVM污水处理故障诊断方法，其特征在于，步骤S4中，所述“一

对一”的快速相关向量机多分类模型，其建立过程如下：

相关向量机是通过最大化边际似然函数p(t|α,σ2)的方法确定超参数α和方差σ2的，等价于最大化为其对数；记L(α)＝log[p(t|α,σ2)]，整理有：

其中C＝σ2I+ΦA-1ΦT,t＝[t1,t2,…,tN]T；

对矩阵C进行等价变换，如下：

其中此矩阵表示当αi＝∞时，相应的基向量φi被移除后样本对应的协方差矩阵，根据矩阵相关性质整理可得

因此公式(5)可以改写为

其中L(α-i)表示为当αi＝∞时，相应的基本向量φi被移除后所对应的边界似然函数的对数，而

l(αi)表示边界似然的对数函数中只与αi有关的部分；

公式(8)对αi求偏导有

记

所以公式(9)可改写为

令公式(11)等于零，考虑到αi是方差值必须为正，所以当时有

对L(α)关于αi求二阶偏导有

综合公式(11)和(12)进行分析可知

所以当时，公式(14)左边的表达式是恒小于零的，并对以上推导公式分析可得，L(α)有唯一最大值点为

根据上面的分析，通过以下方法最大化贝叶斯L(α)：

A、当基向量φi在模型中，即αi<∞，但有则将φi从模型中删除，即令αi＝∞；

B、当基向量φi在模型中，即αi＝∞，但有则将φi添加到模型中并利用公式(15)更新αi；

C、当基向量φi在模型中，即αi<∞，但有则用公式(15)更新αi；

综上所述，快速相关向量机分类基本算法步骤如下：

(1)初始化σ2＝0；

(2)用单个基向量φi初始化αi，由公式(15)分析整理可得并设置其他的αm(m≠i)为无穷大；(3)计算Σ、μ并对所有M个基函数φm初始化Sm和Qm；(4)从所有M个基函数φm集合中选择候选的基向量φi；(5)计算

(6)若θi>0且αi<∞，重新估计αi；

(7)若θi>0且αi＝∞，添加φi到模型中并重新估计αi；(8)若θi≤0且αi<∞，删除φi并设置αi＝∞；

(9)用Laplace逼近方法重新计算协方差矩阵Σ，权重矩阵μ以及相应迭代过程中的Sm和Qm；(10)若收敛或者达到最大迭代次数，则终止程序；否则转步骤(4)；终止条件为：任意在模型

中的基函数对应的αi，有αi技术说明书

一种Fast RVM污水处理故障诊断方法

技术领域

本技术涉及污水处理领域，特别涉及一种FastRVM污水处理故障诊断方法。

背景技术

随着我国工农业经济的迅猛发展，城市进程不断加快，工业、农业废水及生活污水排放量与日俱增，不仅加剧了市政污水处理负荷，还使得人类赖以生存的水资源遭到了极大的破坏，各大湖泊出现了不同程度的富营养化，城市水环境安全已经成为了大众关注的焦点。污水处理厂作为自然水体的关键保护屏障，其运行好坏将直接影响水环境的安全程度。污水生化处理工艺复杂，影响因素非常多，污水处理厂在实际运行过程中难以保持长期稳定的运行，一旦发生运行故障常常会引起出水水质不达标、运行费用增高和环境二次污染等严重问题。因此，必须对污水处理厂运行状态进行监控，及时诊断出污水处理过程故障并予以处理。污水处理运行状态的故障诊断本质上是一个模式分类问题，而在实际状态运行分类中，常常会遇到污水数据集的分布不均衡问题，传统的机器学习方法在用于不平衡数据分类时，模型分类正确率无法满足要求，给污水生化处理的故障诊断带来了极大的困难。

故障诊断技术是一种通过可见、可测量的关键指标所反映的异常状态，找出具体故障和原因，并提出相应的解决措施的技术。故障诊断技术产生之初，是基于传感器和动态测试技术，通过信号处理技术进行设备的故障分析与诊断。随着科技的不断进步，生产设备或工艺系统朝着复杂化、多元化、大型化发展，传统的故障诊断技术已不能满足现代设备的诊断需求。而人工智能发展为故障诊断注入了新的活力，通过组织相关领域的专业知识、模拟人类思维的推理方式、建立故障诊断模型，将故障诊断技术引向智能化、系统化、网络化，它在故障诊断领域中的进一步应用，推动了智能故障诊断技术的迅速发展。目前，在污水生化处理系统故障诊断方面，国内外专家学者所采用的技术主要有，基于知识的专家系统技术、支持向量机方法、粗糙集理论、基于神经网络的方法等。但是这些技术也存在一定的局限性，专家系统存在知识获取瓶颈问题，若建立的专家知识库不完备，则有可能导致推理混乱；支持向量机受到核函数必须满足Mercer条件和惩罚参数C及不敏感参数计算量过大等；粗糙集理论在处理异常或噪声数据方面常常会显得为力，并且在建立模型时需要大量的数

据样本；神经网络容易陷入局部最优，且有过拟合及收敛速度慢的缺点；而且关于如何处理污水数据类型之间的平衡性，并且不影响故障诊断的性能，在目前的污水故障诊断研究中较少提及。

技术内容

本技术的目的在于克服现有技术的缺点与不足，提供一种FastRVM污水处理故障诊断方法，通过基于聚类的快速相关向量机对多数类数据压缩和虚拟少数类向上采样的对少数类数据扩充，降低了污水数据的不平衡性，同时采用FastRVM对污水生化处理过程建立分类模型，有效地提高了对污水生化处理系统的故障诊断精度。

本技术的目的通过以下的技术方案实现：

一种FastRVM污水处理故障诊断方法，包含以下顺序的步骤：

S1.剔除污水输入和输出的数据中的异常点，由于各输入变量量纲的不同，对其进行归一化

处理，归一化到[0,1]区间中；

S2.基于聚类的快速相关向量机多数类数据压缩模块，将训练样本中的多数类样本数据采用K-means方法进行聚类；

S3.虚拟少数类向上采样的少数类数据扩充模块将训练样本中的少数类样本数据采用SMOTE(虚拟少数类向上采样方法)进行数据扩充；

S4.将处理后的所有类的样本数据重新组合构成新的训练集，建立“一对一”的快速相关向量

机多分类模型，对建好的分类模型输入测试集进行投票，得到测试结果，从而实现对污水处理的整体运行状态的识别。

所述的步骤S2，具体为：

S201、假设多数类样本集X＝{x1,x2,…,xi,…,xn}为n个Rd空间的数据，从n个数据对象中随机

选择k个对象作为初始的聚类中心；

S202、然后对剩余的样本对象则根据与各个聚类中心的距离分别分配到距离最相近的聚类

中心中；计算距离的公式如下，假设cj为第j个类的中心，则xi与cj的距离为：

S203、根据集合中的点更新每个类的聚类中心，假设第j个类中的样本为即包含了nj个样

本，则该类的聚类中心为其中为类中心cj的第m个属性，计算公式如下：

S204、不断重复S202、S203步骤，直到标准测度函数收敛为止(从表现形式上看即更新后的

类中心与更新前一致，具体就是预先给标准测度函数设定精度，将更新后的数据与更新前数据带入标准测度函数能够达到精度则停止更新)，采用均方差作为计算标准测度函数，其形式为：

将多数类样本聚类后，对聚类后的样本类别进行快速相关向量机分类建模，从而通过建模获取相关向量。因为相关向量代表的是该类样本数据的核心数据，所以用得到相关向量作为该多数类新的训练集，从而在压缩多数类数据的同时也能最大程度上的保留数据的有效信息。

所述的步骤S3，具体为：

S301、对少数类中的每一个样本x，以欧几里得距离为标准计算它到少数类样本集中每个样

本的距离，获得其中k个最近邻，并记录近邻样本的下标，这里k取5；

S302、根据向上采样的倍率N，对每一个少数类样本x，从其k个最近邻中随机选取N个样

本，记为y1,y2,…,yN；

S303、在原样本x与yj(j＝1,2,…,N)之间进行随机线性插值，构造新的少数类样本pj，即新样

本：

pj＝x+rand(0,1)*(yj-x),j＝1,2,…,N(4)

其中rand(0,1)表示区间(0,1)内的一个随机数。

步骤S4中，“一对一”的快速相关向量机多分类模型，其建立过程如下：

相关向量机是通过最大化边际似然函数p(t|α,σ2)的方法确定超参数α和方差σ2的，等价于最大化为其对数；记L(α)＝log[p(t|α,σ2)]，整理有：

其中C＝σ2I+ΦA-1ΦT,t＝[t1,t2,…,tN]T；

为了便于最大化L(α)，对矩阵C进行等价变换，如下：

其中此矩阵表示当αi＝∞时，相应的基向量φi被移除后样本对应的协方差矩阵，根据矩阵相关性质整理可得

因此公式(5)可以改写为

其中L(α-i)表示为当αi＝∞时，相应的基本向量φi被移除后所对应的边界似然函数的对数，而

l(αi)表示边界似然的对数函数中只与αi有关的部分；

式子(8)对αi求偏导有

记

所以公式(9)可改写为

令公式(11)等于零，考虑到αi是方差值必须为正，所以当时有

对L(α)关于αi求二阶偏导有

综合公式(11)和(12)进行分析可知

所以当时，公式(14)左边的表达式是恒小于零的，并对以上推导公式分析可得，L(α)有唯一最大值点为

根据上面的分析，通过以下方法最大化贝叶斯L(α)：

A、当基向量φi在模型中，即αi<∞，但有则将φi从模型中删除，即令αi＝∞，这样可以增大

贝叶斯L(α)；

B、当基向量φi在模型中，即αi＝∞，但有则将φi添加到模型中并利用公式(15)更新αi，这样

可以增大贝叶斯L(α)；

C、当基向量φi在模型中，即αi<∞，但有则用公式(15)更新αi，这样可以增大贝叶斯L(α)；

综上所述，快速相关向量机分类基本算法步骤如下：

(1)初始化σ2＝0；

(6)若θi>0且αi<∞(基向量φi在模型中)，重新估计αi；

(7)若θi>0且αi＝∞(基向量φi不在模型中)，添加φi到模型中并重新估计αi；(8)若θi≤0且αi<∞，删除φi并设置αi＝∞；

中的基函数对应的αi，有αi“一对一”分类法又叫“投票法”，设待分类样本为k个类别，这k类中的任意两类都可以组成一

个基本的快速相关向量机二分类器，对所有的训练样本进行两两分类，这样k个类别两两之间共计可以构成个快速相关向量机二分类器，每一个快速相关向量机分类器只在各自对应的样本子集上进行训练。对未知样本进行分类测试时，采用投票的方法，把每一个待测样本都经过全部个分类器进行判别。例如，样本在i、j两类之间分类时，机器判别结果其属于第i类，就在第i类上增加1票，否则对第j类投票加1，直到所有的分类器分类完成，最后统计得票最多的类即为测试样本所属类别。

设分类函数fij(x)用来判别i、j两类样本，若fij(x)<0，则判别x属于第i类，记i类得1票，否则判

x属于第j类，记j类得1票，最后决策时，比较哪一类得到的票最多，则将测试样本规划为该

类。

本技术与现有技术相比，具有如下优点和有益效果：

1、本技术建立了一种基于不平衡数据聚类的FastRVM污水故障诊断模型，通过基于聚类的

快速相关向量机对多数类数据压缩和虚拟少数类向上采样方法对少数类数据扩充，降低了污水数据的不平衡性，同时采用泛化能力强的FastRVM对污水生化处理过程建立多分类模型，提高了对污水生化处理系统的故障诊断精度，效果显著，性能也得到了改善。

2、本技术的模型是基于FastRVM方法的，在离线情况下获得良好效果，在此基础上对于展

开基于不平衡数据聚类的FastRVM污水故障的在线诊断研究也是很有意义。

3、本技术中的相关向量机(RVM)是一种新的监督性学习方法，与支持向量机基于结构风险

最小化不同，RVM是在贝叶斯框架下的概率模型学习，相关向量个数更少，模型更为稀疏，核函数不需要满足Mercer条件，并且模型中的自由参数数量更少。但是相关向量机在计算复杂度大，所需内存开销大，而快速边界似然算法(FastRVM)通过设置一个空的模型，在训练过程中以一定该准则，不断向该模型中添加或删基函数，直到边际似然函数不在出现明显变化且达到规定的迭代次数为止，从而来改善其分类效率，并且保证其分类准确率。

所以，本技术采用基于聚类的快速相关向量机方法对多数类样本进行压缩，利用虚拟少数类向上采样方法对少数类样本进行扩充，使得原始污水样本数据的不平衡性降低，然后采用

FastRVM建立污水处理故障诊断模型，有效地提高了污水处理系统的故障诊断精度。

附图说明

图1为本技术所述一种FastRVM污水处理故障诊断方法的流程图。

图2为本技术模型“一对一”的快速相关向量机多分类模型示意图。

图3为本技术模型基于聚类的快速相关向量机多数类数据压缩流程图。

图4为本技术模型虚拟少数类向上采样的少数类数据扩充流程图。

图5为本技术模型快速相关向量机分类算法流程图。

图6为测试样本分类示意图。

具体实施方式

下面结合实施例及附图对本技术作进一步详细的描述，但本技术的实施方式不限于此。

如图1，一种FastRVM污水处理故障诊断方法，包含以下顺序的步骤：

S1.剔除污水输入和输出的数据中的异常点，由于各输入变量量纲的不同，对其进行归一化

处理，归一化到[0,1]区间中；

S2.采用基于聚类的快速相关向量机方法对多数类数据压缩，其计算公式如下：

将训练样本中的多数类样本数据采用K-means方法进行聚类，假设多数类样本集X＝{x1,x2,

…,xi,…,xn}为n个Rd空间的数据。首先，从n个数据对象中随机选择k个对象作为初始的聚类

中心(本技术中取k＝2，便于后面使用基本快速相关向量机建模)，对剩余的样本对象则根据与各个聚类中心的距离分别分配到距离最相近的聚类中心中。计算距离的公式如下，假设cj为第j个类的中心，则xi与cj的距离为：

然后，根据集合中的点更新每个类的聚类中心，假设第j个类中的样本为即包含了nj个样本，则该类的聚类中心为其中为类中心cj的第m个属性，计算公式如下：

然后不断重复上述过程，直到标准函数收敛为止，本技术采用均方差作为计算准则函数，其形式为：

将多数类样本聚类后，然后对聚类后的样本类别进行快速相关向量机分类建模，从而通过建模可以获取一定数量的相关向量，因为相关向量代表的是该类样本数据的核心数据，所以用得到相关向量作为该多数类新的训练集，从而在压缩多数类数据的同时也能最大程度上的保留数据的有效信息，具体的流程图如图2所示。

S3.将训练样本中的少数类样本数据采用SMOTE(虚拟少数类向上采样方法)进行数据扩充，

算法的具体描述如下：

1)对少数类中的每一个样本x，以欧几里得距离为标准计算它到少数类样本集中每个样本的

距离，获得其中k个最近邻，并记录近邻样本的下标，这里k取5；

2)根据向上采样的倍率N，对每一个少数类样本x，从其k个最近邻中随机选取N个样本，记

为y1,y2,…,yN；

3)在原样本x与yj(j＝1,2,…,N)之间进行随机线性插值，构造新的少数类样本pj。即新样本：pj＝x+rand(0,1)*(yj-x),j＝1,2,…,N(4)

其中：rand(0,1)表示区间(0,1)内的一个随机数，算法流程图如图3所示。

S4.将处理后的所有类的样本数据重新组合构成新的训练集，建立“一对一”的快速相关向量

机多分类模型，对建好的分类模型输入测试集进行投票，得到测试结果，从而实现对污水处理的整体运行状态的识别。其计算公式如下：

相关向量机是通过最大化边际似然函数p(t|α,σ2)的方法确定超参数α和方差σ2的，等价于最大化为其对数。记L(α)＝log[p(t|α,σ2)]，整理有：

其中C＝σ2I+ΦA-1ΦT,t＝[t1,t2,…,tN]T.

为了便于最大化L(α)，对矩阵C进行等价变换，如下：

其中此矩阵表示当αi＝∞时，相应的基向量φi被移除后样本对应的协方差矩阵，根据矩阵相关性质整理可得

因此公式(5)可以改写为

注意L(α-i)表示为当αi＝∞时，相应的基本向量φi被移除后所对应的边界似然函数的对数，而

l(αi)表示边界似然的对数函数中只与αi有关的部分。式子(8)对αi求偏导有

记

所以公式(9)可改写为

令公式(11)等于零，考虑到αi是方差值必须为正，所以当时有

对L(α)关于αi求二阶偏导有

综合公式(11)和(12)进行分析可知

所以当时，公式(14)左边的表达式是恒小于零的，并对以上推导公式分析可得，L(α)有唯一最大值点为

根据上面的分析，可以通过以下方法最大化贝叶斯L(α)：

1)当基向量φi在模型中，即αi<∞，但有则将φi从模型中删除，即令αi＝∞，这样可以增大贝

叶斯L(α)；

2)当基向量φi在模型中，即αi＝∞，但有则将φi添加到模型中并利用公式(15)更新αi，这样可

以增大贝叶斯L(α)；

3)当基向量φi在模型中，即αi<∞，但有则用公式(15)更新αi，这样可以增大贝叶斯L(α)；

综上所述，如图4所示，快速相关向量机分类基本算法步骤如下：

1)初始化σ2＝0；

2)用单个基向量φi初始化αi，由公式(15)分析整理可得并设置其他的αm(m≠i)为无穷大；3)计算Σ、μ并对所有M个基函数φm初始化Sm和Qm；4)从所有M个基函数φm集合中选择候选的基向量φi；5)计算

6)若θi>0且αi<∞(基向量φi在模型中)，重新估计αi；

7)若θi>0且αi＝∞(基向量φi不在模型中)，添加φi到模型中并重新估计αi；8)若θi≤0且αi<∞，删除φi并设置αi＝∞；

9)用Laplace逼近方法重新计算协方差矩阵Σ，权重矩阵μ以及相应迭代过程中的Sm和Qm；

10)若收敛或者达到最大迭代次数，则终止程序；否则转4)。(终止条件为：任意在模型中的

基函数对应的αi，有αi设待分类样本为k个类别，这k类中的任意两类都可以组成一个基本的快速相关向量机二分类器，对所有的训练样本进行两两分类，这样k个类别两两之间共计可以构成个快速相关向量机二分类器，每一个快速相关向量机分类器只在各自对应的样本子集上进行训练。对未知样本进行分类测试时，采用投票的方法，把每一个待测样本都经过全部个分类器进行判别。设分类函数fij(x)用来判别i、j两类样本，若fij(x)<0，则判别x属于第i类，记i类得1票，否则判

x属于第j类，记j类得1票，最后决策时，比较哪一类得到的票最多，则将测试样本规划为该

类，具体示意图如图5、6所示。

污水数据来自UCI数据库，是一个污水处理厂的日常监控数据，整个数据集包括不完整记录在内一共有527个记录，每个样本维数为38(即38个测量变量，对应各个指标的值)，全部属性值都完整的记录有380个，被监测的水体一共有13种状态，根据样本类别的性质污水处理过程的整体运行状态主要分成6大类，类别1为正常情况，类别2为性能超过平均值的正常情况，类别3为进水流量低的正常情况，类别4为二沉池故障，类别5为暴雨引起的非正常状态，类别6为固体溶度过负荷，为了实验方便，把类别4、5、6归为故障状态类别4。正常情况的类别1样本的个数比较多，属于多数类；而类别3和类别4由于样本个数比较少，故属于少数类。样本集xn∈Rd，是第n个输入值，tn是样本的类别，m是样本的类别数，快速相关向量机污水故障诊断具体建模步骤如下：

1、剔除掉污水数据中属性不完整的数据，然后将数据按式子归一化处理，按2:1的比例确定

训练集xtrain和测试集xtest。

2、将训练集中的多数类样本采用K-means算法进行聚类，这里k1＝2。

3、将聚成两类的多数类样本根据基本的快速相关向量机算法进行分类建模，选用RBF核函

数K(x,xi)＝exp(-||x-xi||2/σ2)，核函数宽度h1根据多次实验取经验值从而获取适当数量的相关向量，并由该相关向量集合代替该多数类样本。

4、采用SMOTE向上采样方法来扩充少数类样本，最近邻个数k2取5，向上采样倍率N一般

取1～5倍。

5、将处理后的所有类的样本数据重新组合构成新的训练集xtreain_new，如表1所示：

表1

6、建立“一对一”的快速相关向量机多分类模型

1)模型选用RBF核函数，核宽度参数h2通过对新的训练集xtreain_new采用5折交叉验证的网格

搜索方法来确定。

2)构成个快速相关向量机二分类器Fori＝1:mForj＝(i+1):m

类别i与类别j建立快速相关向量机二分类模型；

EndforEndfor

7、对个分类器分别输入测试集xtest，进行投票，得到测试结果，从而实现对污水处理的整

体运行状态的识别。

仿真实验首先使用相同的未经处理的训练集xtrain和测试集xtest直接按上面第6、7步进行实验，然后与经过上面数据处理的训练集xtreain_new和测试集xtest的实验结果对比，实验进行

10次，取10次实验测试精度的平均值对个分类进行评估，得到结果如表2所示，其

中“RXacc”表示的是类别X的分类正确率，“Totalacc”表示总的分类正确率，“G-mean”表示所有类的召回率的几何平均值，

表2

Fast RVMG-meanR1 accR2 accR3 accR4 accTotal acc

未处理0.2993.47％71.48％60.42％22.22％83.07％

经过处理0.57.38％78.33％74.38％40.00％84.14％

然后实验再使用表1中相同的训练集xtreain_new和测试集xtest分别对相关向量机(RVM)、支持向量机(SVM)、BP神经网络模型进行建模和分类测试。其中RVM模型的核宽度参数同样采用5折交叉验证的网格搜索方法来确定，并同样建立“一对一”来建立RVM分类模型；SVM模型的训练和测试均采用Libsvm软件包，同样选用RBF函数作为核函数，参数C和核宽度使用网络搜索在[-10,10]区间内5折交叉验证获得；BP神经网络模型设计为三层结构，输入层有38个节点，输出层有4个节点，隐含层的节点个数用网格搜索来寻找，寻优范围为 [1,30]，进行5折交叉验证，实验进行10次，取10次实验测试精度的平均值对个分类进行评估，四种模型的分类测试结果如表3所示，

表3

分类模型G-meanR1 accR2 accR3 accR4 accTotal acc

RVM0.5779.88％79.67％75.00％65.00％78.98％

SVM0.5283.00％76.67％73.75％50.00％79.84％BPNN0.4285.38％78.00％76.25％30.00％81.％Fast RVM0.57.38％78.33％74.38％40.00％84.14％

由表2和表3可以看出，污水数据经过本技术上述方法处理后，FastRVM模型对于污水状态的分类效果更好，并且基于本文不平衡数据处理方法的FastRVM模型的总体分类性能要优于

RVM模型、SVM模型、BP模型。本技术提出的基于不平衡数据聚类的FastRVM污水故障诊

断方法在污水处理过程中的故障诊断当中能够取得不错的效果。

上述实施例为本技术较佳的实施方式，但本技术的实施方式并不受上述实施例的，其他的任何未背离本技术的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本技术的保护范围之内。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文