Key Technology Research and Engineering Practice of Artificial Intelligence in
Water Environment Monitoring
雷健 LEI Jian
(北京市水利自动化研究所,北京 100036)
(Beijing Institute of Water Resources Automation,Beijing 100036,China)
摘要:目前水环境监督管理基本靠视频监控和巡河员定期巡视,用技防+人防的方式发现违法事件逐级上报来解决。由于图像采集点不足,并且传统图像信息分析技术使用难度大,需要投入大量人员现场巡河,导致人员成本高、效率比较低。当前人工智能技术的发展已经进入实用化阶段,将其成果有效用于水务管理决策系统当中,成为当前水务信息化的热点技术之一。本文对人工智能的发展趋势和应用到水务信息化中需要考虑的技术和工程问题进行了技术探讨与工程验证。
Abstract: At present, the supervision and management of water environment basically relies on video surveillance and regular inspections by river patrol officers and the illegal incidents are escalated by means of technical defense + personnel defense. Due to insufficient image collection points and the difficulty in using traditional image information analysis techniques, it is necessary to invest a large number of personnel on the scene, resulting in high personnel costs and low efficiency. At present, the development of artificial intelligence technology has entered the practical stage, and the effective use of its results in the water management decision-making system has become one of the hot technologies of water informatization. This paper has carried out technical discussion and engineering verification on the development trend of artificial intelligence and the technical and engineering problems that need to be considered in the application of water information.
关键词:人工智能;卷积神经网络;水务人工智能平台;样本扩增
Key words: artificial intelligence;convolutional neural network;water artificial intelligence platform;sample amplification
中图分类号:TP183 文献标识码:A 文章编号:1006-4311(2019)22-0215-05
0 引言
根据市政府《关于进一步加强污水处理和再生水利用工作的意见》(京政办发[2012]29号),北京市水务局制定了加快污水处理和再生水利用设施建设三年行动方案2013-2015年),提出到“十二五”末,全市污水处理率达到90%以上的目标,目前该任务已经基本完成,2016年底,国务院办公厅印发了《关于全面推行河长制的意见》,推进全面水资源保护、水域岸线管理、水污染防治、水环境治理等工作,北京建立了“市-区-乡镇-村”四级河长,各级政府成立了河长办等相关机构,全面落实河长制要求建设生态文明首都。北京作为一个特大型城市,水资源严重短缺,人均水资源量不足300立方米,水的危机不仅表现在水资源匮乏,还表现在水环境的污染上,因此水环境保护任重道远。河长制建立后,现在河道水环境管理基本靠视频监控和巡河员定期巡河,用技防+人防的方式发现违法事件逐级上报来解决,由于河道湖泊摄像点少,图像信息分析技术匮乏,需要大量人员现场巡河,因此人员成本高,效率比较低。信息化方面,目前北京建设了水质预警信息平台、水质共享交换平台等信息化项目来监测水质,为决策提供依据。如何提高监测效率,能够在水污染初期就能快速定性的做出判断,是解决水污染应急事件的有利手段,也是目前技术升级改造的工作重点。
1 人工智能在水务信息化中的应用基础
随着现代科技的不断更新与物质生活的高度发达,环境污染物的排放量日益增多,人们在享受着丰富物质生活的同时,也受到了环境污染带来的冲击。水质测量是监测水质的必要手段,是通过监视和测定水体中污染物的种类、各类污染物的浓度及变化趋势,评价水质状况的过程。水质监测范围十分广泛,包括未被污染和已受污染的天然水(江、河、湖、海和地下水)及各种各样的工业排水等。水质监测是保护水资源的基本手段之一,水质监测的结果往往用数据来表示,水质监测是进行水资源保护科学研究的基础,若长期收集大量的水质监测数据,就可以此研究出污染物质的来源、分布、迁移和变化的规律,预测水质污染趋势。
水质监测通常采用光电法、化学法以及卫星影像方式来动态监测水体变化状况。光电检测技术(如外光谱法,激光光谱法等),可以直接检测环境中的污染物,无需费时费力,既能实时地反映出污染物的量和浓度,又不会产生附加污染物,且在环境监测中实用性很强。但该方法只能对样本进行检测,使用范围受限,设备的成本也比较高,不适合大量部署。化学检测是通过化学方法对水中的微量物质进行检测,来评定水质。通常是在实验室中采用大中型实验室监测仪,可以监测Zn、Fe、Pb、Cd、Hg、Mn等重金属及卤族元素、铵态氮、亚硝态氮、氰化物、酚类、阴离子洗涤剂及Se等物质。现场测试设备这几年发展也比较快,但设备复杂,维护成本高,只能用于特别重要的监测位置。卫星图像遥感遥测监测水质这几年也有长足进步,但目前还只能用于大范围的测量,对点、线的监测还有待提高数据的精度和分辨率。
水体污染后人感觉最直接的就是水体发臭,水体变浑。由于以上几种传统的水质监测方法投资维护成本高、及时性低的性能,往往达不到应有的预期效果。随着人工智能技术的发展和成熟,将其应用于水质监测,可以成为一种便捷的方法快速监测水体污染。
20世纪50年代,首次出现了人工智能的概念,随之而来的是一系列人工智能理论成果,例如跳棋程序的研发,LISP表处理语言等。到20世纪60年代,出现了许多应用人工智能的分析识别系统,如Hearsay-11语言理解系统等。20世纪80年代,出现的第五代计算机促进了人工智能的发展,带来了人工智能研究的一轮热潮。现在最火热的神经网络技术便出现在1987年,从神经网络出现开始,对其的投资也在不断增加。20世纪90年代Internet技术的出现并发展,为人工智能的研究提供了新的方向,人工智能的研究也从单机运算转向了多台机器联合处理的分布式研究。近几年来,在大数据技术的支持下,人工智能成为机器人、无人机、自动驾驶等高新产业的基础技术,并广泛应用于计算机视觉,如人脸识别,皮肤检测等领域,尤其是基于人工智能的决策系统可以在自动化、量化投资等系统上广泛应用。
我们也正是基于此,希望在水务信息化的进程中尽快引入人工智能的研究成果,使其尽早服务于智慧水务。
2 算法实现的基本原理和建模过程
人工智能算法就是一个机器嵌入了相关算法后,这个机器就拥有了人所具有的基本能力,比如观察、思考、学习、创造等。深度学习算法是对人工神经网络的发展,是多层人工神经网络的组合,在近期赢得了关注,特别是百度也开始发力深度学习后,更是在国内引起了强烈关注,成为人工智能的突破点。深度学习试图建立大得多也复杂得多的神经网络。常见的深度学习算法包括:受限波尔兹曼机(Restricted Boltzmann Machine,RBN),Deep Belief Networks(DBN),卷积神经网络(Convolutional Neural Network),堆栈式自动编码器(Stacked Auto-encoders)等。
在水务管理系统中经常会遇到对河湖、水面图像进行有效评估和分类归档的情景。卷积神经网络技术是受人脑神经系统对事物感知的启发而提出的。由于卷积神经网络神经元之间局部连接,在提取样本特征值时可以做到权值共享,大大减少了神经网络的复杂度,计算量小;不需要复杂的预处理,可以直接输入图像样本。在深度学习算法中,卷积神经网络技术可以很有效地解决上述问题。
2.1 卷积神经网络结构
■
如图1所示,是一种典型的卷积神经网络结构图,一个卷积神经网络主要由以下5种结构组成:①输入层。输入层代表了一张图像的像素矩阵,是整个卷积神经网络的数据接收部分。②卷积层。主要作用是进行特征提取,卷积层是卷积神经网络中最重要核心的部分。③池化层。池化层往往跟在卷积层后面。池化层的作用就是统计之前卷积层输出的结果,并将结果做一个聚合。④全连接层。卷积神经网络的卷积和池化操作往往有许多层,经过这些层的处理之后,卷积神经网络的最后一层是全连接层,通过全连接层的处理会给出最后的分类结果。⑤Softmax层。在卷积神经网络的最后,将通过Softmax层来进行归一化,将分类的结果转化为概率分布。
2.2 卷积神经网络模型的训练过程
卷积神经网络通过反向传播算法(Back propagation算法)来训练网络参数,其主要思想是:
■
①前向传播:将训练数据输入到卷积神经网络的输入层,经过隐藏层,最后达到输出层并输出结果。②反向传播:卷积神经网络的输出结果与实际结果存在误差,然后计算预测值与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层。③在反向传播过程中,根据预测值与实际值之间的误差得到损失函数,将损失函数对网络参数求偏导数,得到损失函数的梯度。沿着损失函数的负梯度方向更新网络参数,更新的幅度称为步长(学习率)。不断迭代上述过程,直至损失函数取得最小值,模型收敛。
3 在水务应用过程中解决的几个关键技术
针对水务应用中的实际问题,如何解决初期样本数量不足和基于业务知识和经验进行正负样本的评定是两个关键问题。
3.1 样本扩增
针对水务系统运行初始阶段,样本数量会不足的实际情况,需求根据水质图像采集的实际情况,对样本进行技术性的扩增。并防止过拟合现象,也就是误识别现象的出现。
深度学习算法应用初期,数据量不够大时,采用下面四种方法进行样本扩增:人为地对训练集进行扩增:基本思路是从已有的数据中通过平移,翻转,加噪声等方法扩增出一批新的数据;Regularization:这是一种正则化方法,模型过拟合很多是由于数据量较小导致的,采取在损失函数后面加上正则项,这一方法在一定成都上可以抑制过拟合的产生,由此带来的缺点是多引入了一个超级参数;Dropout:这也是一种正则化方法,通过将随机选取的部分神经元降低权限来实现防止过拟合这一目的;Unsupervised Pre-training:先做无监督的与训练,再加上分类层,进行有监督的训练。
对于不同的实际应用要求,我们可以使用多种方法,通过图像的处理来增加训练集样本数量。
①针对水面不同时间的阳光照射的角度和强度的变化现象,我们尝试采用对比度变换(Contrast)的方法,可以把光照变化带来的影响降低到可以忽略的程度。
②水质监测过程中,以水文标尺作为参照物是很好的选择,为了把这一参考实体能从千差万别的背景中被算法识别出,并根据其在水下呈现的清晰情况判别出水质透明性,我们用了一下方法进行样本扩增:
旋转-反射变换(Rotation/Reflection):随机旋转图片一定角度;改变图片内容的朝向;
翻转变换(Flip):按照垂直方向或水平方向对图片进行翻转;
缩放变换(Zoom):按照一定的比例对图片进行放大或缩小;
平移变换(Shift):指定平移的范围和步长,对图片沿水平或竖直方向进行平移。改变图片的位置。
③样本图片中水面波浪是一种无图不在的强干扰,为了能尽快在小样本采集量的情况下剔除其影响,我们采用一种噪声扰动(Noise)处理方法扩增样本,既对图片的每个像素点的RGB进行随机扰动。采用的噪声模式是高斯噪声和椒盐噪声。通过此方法进行的样本扩增,把各空间境区域和各自环境条件下波浪的负面影响有效降低。
3.2 正样本和负样本的选择
与普通的机器学习算法不同,对于深度学习,要训练一个良好的模型,数据量的需求是十分巨大的,系统运行初期数据量恰恰是不足的。另一方面,样本的选取对于图像处理的影响巨大,需要在训练卷积神经网络初期就考虑样本的分布与选取。因此如何将水务专家和一线工作人员的经验用于样本的选取成为把人工智能用于水质评估成败的关键。
针对水质监测的实际需求,制定出一套合理的选取正、负样本的原则,可以让水务专家和一线工作人员充分理解,并能与其专业和实际经验相结合,是训练出有效模型的前提。
在图片分类中,不同类别的图片样本越是相似,越是能够强迫算法收敛到精确的特征,提取出图片的有效的特征信息。例如,在透明度识别问题中,算法依据正负样本与原始图像的水文标尺水下“距离”进行验证,因此如果能选取成对的透明和不透明情况下的正、负样本,即选取同一环境下的两张不同水质的图片,组成一组的对比样本,“强迫”算法去找到我们需要的“本质”区别。在选取对比样本的过程,需要针对正样本选取尽量相似的负样本,从而使得算法精确收敛。特别的,在选取训练集时,需要人工选取训练难度大的样本组,具体而言,你想要的样本组中正、负样本的特征要相似且不同,增加算法的计算效率。如果随机的选取样本组,其中有些会太简单,梯度算法不会有什么效果,因为网络总是很轻松就能得到正确的结果。只有选取训练难度大的样本组,梯度算法才能发挥作用,使得正负样本与原始图像的差距尽量远。
另一方面,在对有监督的机器学习模型进行训练之前,会将所拥有的原始数据划分,即分为训练集、验证集和测试集。对原始数据进行划分,是为了能够从正确率、泛化能力等两个方面选出最优的模型。训练集(Training set),是为了训练模型中的参数,训练时可以对分类器的参数进行设置。通常训练集会结合验证集,训练出在同一参数下的不同模型取值,来拟合出多个分类器,进而提高模型性能。验证集(Validation Set)是用在训练集之后,即训练出多个模型之后,用多个模型分别对验证集数据进行预测,记录该模型对验证数据集的预测准确率,进而寻找到最佳模型。测试集(Testing set)在最后使用,找到最佳模型以后,利用该模型对测试集进行预测。用来衡量该最优模型的性能和分类能力。
进行数据集划分还有另外一个作用,防止模型训练过拟合。如果不划分验证集合测试集,训练后的模型参数很可能只拟合了原始数据,即出现了过拟合现象,当输入新的数据时,该模型的效果可能会很不理想。为了保证测试集可以良好地衡量算法在实际运行环境中的性能,需要尽量设计出与实际运行环境中样本分布相似的样本。并且,应尽量使得训练、验证、测试三个样本集分布相似,保证训练的有效性。例如,在将图片分类算法运用于生产样本优劣的检测中,样本的选取需要与实际生产中的样本优劣分布相似,具体而言,三个样本集的选取采用随机分类样本集得到。
深度网络的特殊在于其对全数据敏感,即数据的分布对其结果有很大的影响。样本的选取决定了网络的训练目标。合理的选取样本有利于训练出性能更好的模型。
4 水行业人工智能平台的搭建
为了在现有水务信息化平台上增加人工智能的功能,需要在原有的基础上引入人工智能计算功能,以及样本库管理和模型构建应用管理的平台。具体的架构可以如图所示进行建设,再逐步与其他现有应用平台进行数据对接。
4.1 系统设计原则:
在设计规划之初就秉承各个组成模块之间保持相对独立性的原则,对模块单独进行设计、制造、调试、修改和存储,这便于今后在不同的专业团队分别进行迭代开发和规范化生产部署。
力求模块的接口结构化和参数标准化,使得模块间的互换容易实现,从而使模块满足更多的不同系统的需要,便于把成果应用去水务行业中的其它适合图像分类需求的场合,如河堤安全管理、立交桥积水智能报警等。
另外,系统建设过程中也一直保持采用现有的通用性软件产品,有利于实现横系列、纵系列产品间的模块的通用,实现跨系列系统间的模块的通用,方便系统升级改造和成本控制。
4.2 系统功能结构和技术框架
为了克服肉眼检测方法和传统模式识别检测效率低、准确率低的缺点,本系统采用深度学习算法和GPU并行计算技术实现对黑臭水体水质监控的实时自动检测。将智能装备通过通信技术有机连接起来,实现水质监测智能化,通过视频收集现场数据,再借用运营商的通信网络上传至云服务器,在后台软件系统的管理下进行数据处理分析,并与水务综合管理系统相结合,提供黑臭水体重点监测地段的水质智能监测。
检测系统的图像处理算法主要包括图像预处理算法、卷积神经网络图像特征提取算法、图像分类与识别算法等关键算法。为了提高检测的实时性,系统结合GPU并行计算架构和CUDA编程模式的特点,利用TensorFlow深度学习框架设计了相关的并行图像处理算法,并通过实验验证了GPU对数字图像处理算法的加速效果。
■
4.3 数据分析和处理逻辑流程
在系统平台总体结构的框架下,根据对黑臭水体智能监测的实际需求,设计了系统中数据分析和处理的逻辑结构,如图4所示。系统的主要功能为生产者提供一个可以控制使用流程的后台,以及可视化的操作界面。实现控制平台页面对整个系统的可视化操作,并能监控系统运行状况。
■
WEB端为整个控制平台提供可视化界面,将控制平台需要的所有功能可视化展现在用户眼前,给用户提供一个便于理解易于操作的界面。
业务逻辑模块包含了整个控制平台的所有业务功能,是整个监控系统的中转站,用来获取WEB端表单数据、调用业务逻辑、将相关数据分发转向到数据库、存储器、GPU以及硬件设备。
数据库按照用户信息表user、模型库表model_library、模型使用表model_using(模型库子表)、样本库表sample_library、文件管理表file、硬件表hardware、配置表 configuration(硬件表的子表)进行设计。
存储器主要用于存储原始图像以及各种模型信息。GPU主要有两大用途:第一是进行模型的计算;第二是进行统计分析。
现场设备的主要功能是采集图像,预测分类,并输出信号。现场设备主要包括工业相机、GPU处理器以及报警装置。
系统运行原理为:web模块,前端web页面下达的训练命令给后台,后台根据命令到数据库调取相关参数(比如训练样本路径、算法编号等)⑤⑥,然后打包成JSON格式的数据包,调用API层发送给核心算法模块①,核心算法模块服务启动,解析JSON数据包,根据解析出来的参数进行算法调用。调用算法训练时,从存储模块的样本库中调取训练样本③,训练结束,将模型和参数保存到模型参数库④,并把验证正确率等运行结果通过JSON数据包反馈给web模块②。web模块把此次系统运行的信息,比如训练日志等写入数据库⑥。
4.4 核心算法参数配置
通过可以调整模型,优化算法,更新权重和偏差参数,使得运算的效率更好,效果更好。
卷积神经网络的训练过程主要采用梯度下降法,其计算过程中采用误差反向传播的方式计算误差函数对全部权值和偏置值的梯度,得到最优解。系统所设计的算法也是利用梯度下降法训练网络参数。
关于卷积神经网络的损失函数,本系统采用了交叉熵来实现。交叉熵主要用来度量两个概率分布间的差异性信息。假设一个样本集中有两个概率分布。在TensorFlow实现的卷积神经网络中,它作为一个额外的处理层,把网络的输出归一化成一个概率分布。
4.5 现场设备及其内部逻辑功能设计(图5)
系统应用模块:分为两部分,一是载入模型结构和参数,该模型是基于卷积神经网络的智能检测算法训练后所转存的文件,根据不同的算法参数配置,有多种模型可供选择;二是智能检测系统对产品图像信息进行处理检测。两者都是基于深度学习框架TensorFlow实现。
逻辑分配模块:接收来自后台模块和现场控制模块的信息,对信息进行解析,并分发给不同的模块。
现场控制:基于QT实现的现场控制界面,能够对智能检测系统进行实时控制,如参数配置、模型推送、控制运行等,并能够实时显示系统运行状态和返回的检测结果;同时能够实现对数据采集模块和报警模块的调度配置。
数据采集:采用工业相机采集图像信息,通过调用工业相机的SDK实现对图像采集参数的控制。
报警设备:两种突发事件会出发报警设备,一是系统运行异常;二是检测系统检测出缺陷产品。
4.6 应用效果
要区分的种类:清水,黑丑水体(水体异常,水下浑浊 通透性变差,水面异物垃圾)。
通过对北京市水务自动化研究所掌握的29个黑臭水体监控录像的样本采集,提取了水体正常的正样本15000份,水体异常的负样本5000个,通过上述系统进行模型训练,在调整参数优化的基础上,准确分辨率达到95%以上。
■
系统分为训练和检测两个模块,进行检测应用之前,要先利用训练模块进行模型训练。采集相关类别的问题图片若干,作为训练集输入到系统中,设定好训练迭代次数(默认为400),经过一段时间训练后,准确率提高到一定程度,保存训练好的模型。利用迁移学习,将训练好的检测模型载入到检测模块,系统即可实现实时监测。
结果表明,准确分辨率可以达到95%以上,可信度达到预期效果。训练时间根据样本的数量多少不确定,通常在15000样本的情况下,需要2个小时。
下一步将把系统进一步产品化,力争在近期投入实际运行,为汛期安全生产和人民生活提供技术支持。
5 结论
本文在对人工智能的发展趋势以及基础理论分析的基础上,总结了其在水务应用的需要解决的样本扩充、专家意见导入、信息图片化等几个方面的关键技术,并结合水务现有的信息化程度,提出了人工智能引入到水务信息化的系统框架,并在对黑臭水体图像分析中进行了试用性验证,效果良好。
目前算法和系统还处于工程试验验证阶段,还存在应用单一、功能简单、安全性差等不足。还下一步将继续深化、完善算法,在增加海量样本的情况下,优化出更优秀的模型;完善系统的架构和功能,力争尽快把此技术转换成生产力,并应用到河湖安全管理等其他场境。
参考文献:
[1]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[A] //International Conference on Neural Information Processing Systems[C], New York: Curran Associates Inc, 2012:1097-1105.
[2]郑泽宇,顾思宇.TensorFlow实战Google深度学习框架 [M].北京:电子工业出版社,2017:134-140.
[3]Wong W K, Cheung D W, Kao B, et al. Secure KNN computation on encrypted databases[A] //ACM SIGMOD International Conference on Management of Data[C], New York: ACM, 2009:139-152.
[4]Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. New York: Computer Science, 2014: 72.
[5]Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553):436.
[6]Tanno R, Okamoto K, Yanai K. DeepFoodCam: A DCNN-based Real-time Mobile Food Recognition System[A] // International Workshop on Multimedia
|