实验力学

基于算法改进的行人检测技术研究 

来源:实验力学 【在线投稿】 栏目:期刊导读 时间:2021-07-07

1 概述

在计算机视觉这个大领域下有众多的分支研究,其中对生活中行人的检测作为其分支之一是当下一个主流的研究,通过现有目标检测算法模型加以改进研究以达到对行人检测能有更好的性能。目标检测算法发展到当下主要被分成了两个类别:基于候选区域的目标检测算法(两个阶段):常用的有Fast R-CNN[1]、Faster R-CNN[2],基于回归的目标检测算法(一个阶段):常用的有YOLO[3],SSD。由Redmon 等人提出的YOLOv3 算法由于具有良好的识别率和实时性而被大量运用于行人检测中。

2 YOLOv3 算法

YOLOv3 算法是基于v1、v2 算法的基础上改进而来的,v3算法采用了分类效果更好的darknet-53,相比前2 个算法所用的ResNet-152 和ResNet-101,darknet-53 神经网络层数更精简,但在分类精度保持一致的同时计算效率有了提升。

FAST R-CNN 算法中使用的是候选区域特征提取,与之相比的YOLOv3 采取的方式是直接对一整张图片来进行卷积步骤,这样做的好处是可以加快计算速度,但对于训练相对较大的物体,背景信息也可能被算成目标里的一部分,因此在检测大物体时检测效果相对较差。

YOLOv3 提取了darknet-53[5]中下采样为8 倍、16 倍、32 倍时的特征图图像尺度分别为13*13、26*26、52*52。使用FPN 网络[4]对darknet-53 网络中提取的三个尺度不同的特征图进行融合处理,利用多尺度信息策略帮助网络模型能学习到不同深度的特征信息,最后将多种特征融合在一起并输入YOLO 层进行类别预测和边界框回归运算。

每当图像被卷积后,尺寸发生变化缩小成原来的一半。每个卷积层的实现是由卷积+BN 层+激活函数,设置添加后的残差模块在其基础上需要进行零填充的设置。YOLOv3 共计算出 个数据的预测。

对于多尺度检测来说,图像的直接信息中就包含分辨率信息,就是构成目标需要的像素数量。像素的数目越高,目标图像的语义信息就更加具体清晰,这意味着可以获得的分辨率信息更多,因此大尺寸特征图主要用来进行分辨率信息获取。语义信息在目标检测中的是用来区分出目标与背景之间的关系,因此语义信息就是能准确的分辨出哪些是目标哪些是背景。不同种类的语义信息需要的细节信息也不尽相同,而且语义信息的分辨率越小,能获得的细节信息越少。对于小目标来讲,尺度较小的特征图无法提取有效的分辨率信息,这种时候还是需结合大尺度的特征图的语义信息来进一步识别。

3 YOLOv3 算法的改进

3.1 网络结构

YOLOv3 算法通过结合残差网络的作用提出Darknet-53 网络,并通过残差结构降低了训练的难度,Darknet-53 网络实现了对多种目标的检测。然而对于本文研究的行人目标检测内容来说,Darknet-53 网络是复杂冗余的。因为网络层数越多,需要计算的参数就越多,这将导致训练时间加长并且训练变的复杂,会极大影响训练的效率,造成过拟合,也会影响检测的速度。

因此,本文在改进YOLOv3 算法时,使用darknet-19[6]网络替代原有的darknet-53 网络并结合YOLOv3 的多尺度检测环节。Darknet-19 网络如图1 所示。Darknet-19 网络去掉了残差网络降低了网络结构的复杂性。

图1

3.2 多尺度检测的改进

YOLOv3 通过把多种尺度信息融合的方式进行目标检测,每一种特征图都进行检测,采样倍数越高的特征图就可以检测更精细的目标,对于图像中的小目标行人检测效果有所提升。

YOLOv3 在darknet-53 网络中选用了3 个尺度的特征层,本文则是在Darknet-19 中选择4 个特征层,结合不同尺寸的特征图分配相对应的锚点框,最终本文提出的多尺度检测网络结构模型如图2 所示。

图2

3.3 损失函数

YOLOv3 中的损失函数由坐标回归损失、置信度损失和分类损失组成,其中坐标回归损失使用均方误差(Mean Square Error, MSE)进行计算,置信度v1,v2 损失和分类损失使用交叉熵进行计算。

YOLOv3 的损失函数是v1,v2 函数改进而来, 分为三个部分:

坐标回归损失函数:

4 实验总结

4.1 实验环境与训练

本文是基于pytorh 框架进行实验,操作系统是windows 10,64 位 ,CPU 为 AMD R5-3600,GPU 为 GeForce RTX2070Super。在训练阶段通过使用批量随机梯度下降法来优化损失函数。

4.2 实验数据

本文实验训练所需的数据来自INRIA 数据集,选取了该数据的1804 张图片,含有行人3542 个。除此之外,本研究还在校内收集到了500 张含有行人的图片,本文通过图像标注软件labelImg 进行信息标注,得到了校园中行人的数据集。

上一篇:水生植被影响异重流动力特性的试验分析
下一篇:没有了