Research on Low Information Image Object Detection Algorithm
Based on Deep Learning
王博 WANG Bo
(北京师范大学第三附属中学,北京 100088)
(The Third Affiliated Middle School of Beijing Normal University,Beijing 100088,China)
摘要:本文探讨了物体检测模型在一些领域的应用困难,比如基于热像图的物体检测,基于x射线图的物体检测,由于这类图像信息量低,传统物体检测模型难以应用。本文提出了一种统一化的解决方案,利用pix2pix模型将信息含量较低的图片转化为常规图片,再利用SSD模型侦测图像中的物体。通过实验,验证了算法的可行性。
Abstract: This paper discusses the application difficulties of object detection models in some fields, such as object detection based on thermal image, object detection based on x-ray image. Due to the low information volume of such images, traditional object detection models are difficult to apply. This paper proposes a unified solution that uses the pix2pix model to convert images with lower information content into regular images, and then uses SSD models to detect objects in the image. The feasibility of the algorithm is verified by experiments.
关键词:深度学习;物体检测;pix2pix;SSD
Key words: deep learning;object detection;pix2pix;SSD
中图分类号:TP391.4 文献标识码:A 文章编号:1006-4311(2019)24-0256-04
1 绪论
1.1 引言
现在图像中的物体检测技术在日常生活和一些专业领域中应用的非常广泛,比如人脸识别系统,医学图像分析等。智能的物体检测技术给人们的生活和工作带来了非常大的便利。本文经过调查发现,还有许多场景有应用物体检测技术的需求。比如,在进入车站或者机场时都要经过安检。乘客的行李通过安检仪,安检仪用x射线扫描行李,x射线图像在屏幕上显示,安检员通过屏幕观察是否有违禁品。如果能有一种物体检测技术自动的在x射线图中标注出物体的话,那将大大提高安检的效率。还有,在发生火灾或者其他自然灾害时,救援人员会用到红外热像仪去探测灾变现场中的物体。与安检的场景类似,只不过这里需要分析的图像是热像图。
那么上面遇到的问题该怎么解决呢?通常的做法是这样,以热像图为例,需要准备大量的热像图,并在上面标注出现的物体,然后用这些标注好的图像去训练一个物体检测模型。这里最大的问题是标注大量图片是不可能完成的任务。那么有没有开源的别人训练好的模型可以直接用呢?答案是有的。但是这些开源模型都是用PASCAL VOC、ImageNet、COCO等数据集训练的,这些数据集以日常图片为主(如图1),因此用它们去检测特殊图像时效果不好。
■
于是,问题似乎卡在了这里,从新标注图片是不可能完成的任务,开源的已训练好的模型又不能直接用在热像图和x射线图这类图片上(如图2和图3)。
■
■
1.2 解决方案
图1和图3这种的应用场景中出现的图片本文统一称为低信息量图片,把图1这种开源物体检测模型接受的图片称为高信息量图片。既然开源物体检测模型只能接受高信息量图片,那么很自然的想到,低信息量图片是不是可以转化为高信息量图片呢?答案是肯定的。可以看看图3,人可以从图片里的物体轮廓大致猜测出物体本来的样子。那么有没有一种人工智能技术模仿出人的这种能力呢?答案也是肯定的。经过调查,条件生成对抗网络(简称C-GAN)可以做到[1]。C-GAN可以做到的事情如图4所示。
■
input是C-GAN的输入,output是C-GAN的输出,target是input对应的真实图像。
于是本文的解决方案就是,把低信息量的图片先输入C-GAN,用C-GAN生成高信息量图片,再把生成的高信息量图片送入目标检测网络里面。这样,整个过程只需要训练一个条件生成对抗网络,不需要从新训练一个目标检测网络。这样,只需要收集类似图4中input和target对应的样本就可以了,这种数据的收集难度要远远的小于在图片上标注物体。为了验证算法的可行性,本文实验选取的是开源的cityscape数据集。
2 模型概述
2.1 条件生成性对抗网络(谷歌pix2pix模型)
条件生成性对抗网络,即C-GAN。顾名思义,它是一种生成性的神经网络模型。如图5中所示,一个条件生成网络称为G,可以接受一个物体的轮廓,描绘出轮廓对应的物体图片。如何训练G呢?用“对抗”的思想。训练G的同时,会训练一个鉴别网络称为D。D可以分辨出物体的图片是真实的(真实的训练样本),还是虚构的(G所生成的)。通过设计损失函数,让G和D互相对抗提升,最终训练出表现比较好的生成网络G[2]。
■
2.2 物体检测模型
目标检测的任务是找出图像中所有感兴趣的目标(物体),确定它们的位置和大小,是机器视觉领域的核心问题之一。由于各类物体有不同的外观、形状、姿态,加上成像时光照,遮挡等因素的干扰,目标检测一直是机器视觉领域最具有挑战性的问题。
2.2.1 基于候选框的目标检测算法
基于候选框的目标检测算法把目标检测过程分为两个子过程,候选框选择和图片分类[3]。基于这个思路,研究者主要从以下两个方面提升检测效率:不断探索和优化候选框选择算法,加快检测速度;加深CNN网络,获得更高的检测准确率。但是这类算法最大的缺陷是无法达到实时性的要求。
2.2.2 基于回归位置的目标检测算法
制约基于候选框的目标检测算法的速度提升的关键是将目标检测问题转化成了对图像局部区域的分类问题,不能充分利用局部对象在整个图片中的上下文信息。对此,研究者们又提出了基于回归位置的目标检测算法,如YOLO[5],SSD[6],DSSD[7]等。基于回归位置的目标检测算法只使用一个卷积网络便完成了在整个图像上对检测框的回归和类别概率的预测,网络结构简单,实现了端到端的优化,且使检测速度有很大的提升,能实现实时处理。
总结:通过对比现今开源的目标检测算法,如表1[4],综合考虑各个算法的优缺点,考虑到如果想要将本文的算法用在视频中的物体检测的话,实时性是一个很重要的方面,所以本文的实验选取开源的SSD算法作为的目标检测算法。
■
3 实验
3.1 数据集
本文训练图像转换模型是用的谷歌开源项目pix2pix。本项目中有几个预设的数据集,本文选取的是其中的cityscape数据集。该数据集包含两部分,训练集2975张图片,每张图片分为左右两部分,一半是低信息量图片,另一半是其对应的正常图片。验证集500张图片。
3.2 实验流程
第一步,用cityscapes数据集训练出一个图像转换模型C-GAN。如图6所示。
第二步,如图7,将C-GAN和目标检测网络连接起来,用测试集测试效果。测试集图片包括两部分,一部分是input,即低信息量的图片,第二部分是其对应的真实图片ground truth。把input从SSD端输入,得到结果的第一列,把input从C-GAN端输入得到结果的第二列,把ground truth从SSD端输入得到结果的第三列。
4 实验结果
因为测试图片太多,限于篇幅的关系,选取四组测试结果展示,如图8。其中每一列的意义与3.1第二步中叙述的一致。
从实验结果来看,本文的思路,即把低信息量的图片通过转换,拿转换后的图片进行目标检测,总体上是可行的。在一些场景中,转换来的图片表现与真实图片十分相近,甚至在一些场景中(第三组),转换来的图片表现还更好一点。但是本文也发现一些问题,比如图片中一些远处的物体、行人、汽车等,有可能在转换来的图片中看不到。这可能是因为受限于实验条件,在训练图片转换网络时训练集中图片比较少,而且训练的轮数也比较少。如果用更好的机器,更多的图片(现在网络上cityscapes的公开数据集已经非常多了),更多的训练轮数,那么图片转换网络会更加的精确。还有,在一些场景中很明显的物体,目标检测网络却检测不到,这有待于目标检测领域的进步。
5 应用讨论
算法应用的抽象过程如图9所示,把训练好的C-GAN和开源的目标检测网络SSD封装成一个模型,输入热成像图或者x射线图,输出标注好的图片。
本研究提出的这一套算法,利用深度学习的方法解决了在图像信息不完整的情况下的目标检测问题。本文设想了如下几个应用场景:
①火灾:在火灾的场景中,人们使用红外探测器探测失火地点中的人和其他物体。但是红外图像信息量低,容易照成人们误判。可以把这套算法嵌入到装有红外探测器的设备中,比如无人机。这样通过算法输出高质量并标出物体的图像,可以更加准确的判断出火灾中物体的位置,为救援提供更加准确的信息。
②安检:现在不管是地铁、高铁或是机场中,安检一般都是利用x射线设备。但是x射线图只有物体的轮廓,可疑物品需要安检员通过x射线扫描图肉眼判断。当人流量特别大时,这种安检方式不仅效率低,而且漏检的概率比较大。如果利用本文的算法,只需提供一些物体和其对应的x射线图作为数据,然后对算法进行微调后,就能将其用于安检场景。这不仅降低了安检员的工作量,而且提高了安检效率。
③自动驾驶:自动驾驶汽车通过摄像头和雷达发现周围的情况。但是在夜晚或者气候恶劣的情况下,摄像头能拍到的画面就有限,这样容易照成计算机判断不准而导致车祸。如果将本文的算法嵌入车载计算机系统,在处理摄像头拍到的画面时,可以利用的算法进行物体检测。这样能进一步提高自动驾驶汽车在夜晚或恶劣天气情况下的安全系数。
6 总结与展望
本文通过分析引言中提到的应用场景,指出在这些场景中的目标检测是非常困难的问题。因为受限于已标注数据量的问题,现有的目标检测工具在这些场景中表现都很差。于是本文提出一套算法,利用深度学习的方法将低信息量的图像转换成适用于目标检测工具的图像。然后,通过实验,发现这套算法是可行的:通过深度学习方法生成的模拟图像,不仅能在上面标注出物体,而且在许多实验结果中,它的表现和正常图像非常接近。但是,本文也发现一些问题。首先,图像转换网络表现还有非常大的进步空间,这有待于实验设备与数据集的进步。此外,本文发现现在最优的目标检测网络依然需要更进一步的发展。
展望:本文的研究现在只是第一步,它仅仅验证了的算法的可行性。后面还可以有许多实验可以做,比如:
①如果把算法应用于视频中目标检测的任务,就需要研究整个算法处理一张图片的时间。然后结合具体的应用需求,调整算法,使其满足视频的帧率要求。
②实验中的图像转换网络使用的是谷歌的pix2pix模型,它本身的网络结构就有待于更多的调整和实验。
③训练图像转换网络(C-GAN)利用的数据是街景和其“对应”的低信息量图片。现在已经有一种叫cycle-GAN[8]的网络不需要这种完全“对应”的数据集,就能达到和C-GAN相似的效果。但是总体来说,cycle-GAN的效果还是低于C-GAN。但是如果进一步研究cycle-GAN,使其比肩甚至超过C-GAN的话,就能更进一步降低收集数据集的难度。
参考文献:
[1][2]Phillip Isola, Jun Yan Zhu, Tinghui Zhou, et al. Image-to-Image Translation with Conditional Adversarial Networks. arXiv preprint arXiv: 1611.07004v1, 2016.
[3][4]王慧玲,綦小龙,武港山.基于深度卷积神经网络的目标检测技术的研究进展[J].计算机科学,2018,45(9):11-19.
[5]Redmon J, Divvala S, Girshick R. et al. You Only Look Once: Unified, Real-Time Object Detection[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 779-788.
[6]Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]. European conference on computer vision.Cham, Springer, 2016: 21-37.
[7]Fu C Y, Liu W, Ranga A, et al. DSSD: Deconvolutional Single Shot Detector[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 2301-2312.
[8]Jun Yan Zhu, Taesung Park, Phillip Isola, et al. Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. arXiv preprint arXiv: 1703.10593v1, 2017. |