您好,欢迎来到华佗健康网。
搜索
您的当前位置:首页基于深度学习的小目标检测算法综述

基于深度学习的小目标检测算法综述

来源:华佗健康网
202157237

基于深度学习的小目标检测算法综述

洋,战荫伟

广东工业大学计算机学院,广州510006

要:随着人工智能技术的发展,深度学习技术在人脸识别、行人检测、无人驾驶等领域得到了广泛的应用。而目

标检测作为机器视觉中最基本、最具有挑战性的问题之一,近年来受到了广泛的关注。针对目标检测特别是小目标检测问题,归纳了常用的数据集和性能评价指标,并对各类常见数据集的特点、优势及检测难度进行对比,系统性地总结了常用的目标检测方法和小目标检测面临的挑战,梳理了基于深度学习的小目标检测方法的最新工作,重点介绍了基于多尺度的小目标检测方法和基于超分辨率的小目标检测方法等,同时介绍了针对目标检测方法的轻量化策略和一些轻量化模型的性能,并总结了各类方法的特点、优势和局限性等,展望了基于深度学习的小目标检测方法的未来发展方向。

关键词:目标检测;深度学习;小目标检测;计算机视觉文献标志码:A

中图分类号:TP391

doi:10.3778/j.issn.1002-8331.2009-0047

SurveyofSmallObjectDetectionAlgorithmsBasedonDeepLearning

LIUYang,ZHANYinwei

CollegeofComputerScienceandTechnology,GuangdongUniversityofTechnology,Guangzhou510006,China

Abstract:Withthedevelopmentofartificialintelligencetechnology,deeplearningtechnologyhasbeenwidelyusedinfacerecognition,pedestriandetection,unmanneddrivingandotherfields.Asoneofthemostbasicandchallengingprob-lemsinmachinevision,objectdetectionhasattractedextensiveattentioninrecentyears.Aimingattheproblemofobjectdetection,especiallysmallobjectdetection,thispapersummarizesthecommondatasetsandperformanceevaluationmet-rics,andcomparesthecharacteristics,advantagesanddifficultiesofvariouscommondatasets.Atthesametime,thispapersystematicallysummarizesthecommonobjectdetectionmethodsandthechallengesfacedbysmallobjectdetection.Inaddition,combingthelatestworkbasedondeeplearning,thispaperintroducesthemulti-scaleandsuper-resolutionsmallobjectdetectionmethodsinthehighlightandpresentsthelightweightstrategyandtheperformanceofsomelightweightmodelsbasedontheobjectdetection.Finally,thispapersummarizesthecharacteristics,advantagesandlimitationsofvari-ousmethods,andlooksatthefuturedevelopmentdirectionofsmallobjectdetectionmethodbasedondeeplearning.Keywords:objectdetection;deeplearning;smallobjectdetection;computervision

目标检测是结合了目标定位和识别两个任务的一项基础计算机视觉任务,其目的是在图像的复杂背景中找到若干目标,对每一个目标给出一个精确目标包围盒并判断该包围盒中的目标所属的类别[1]。深度学习的流行使得目标检测技术获益匪浅,目前,深度学习已被广泛应用于整个目标检测领域,包括通用目标检测和特定领域目标检测。其中,小目标检测是目前计算机视觉领域中的一个热点难点问题。由于小目标的分辨率和信息量有限,使得小目标检测任务成为现阶段计算机视觉领域中的一项巨大挑战。小目标检测任务在民用、军

事、安防等各个领域中也有着十分重要的作用,譬如无人机对地面车辆、行人等的目标检测,遥感卫星图像的地面目标检测,无人驾驶中远处行人车辆以及交通标志的识别,医学成像中一些早期病灶和肿块的检测,自动工业检查定位材料上的小缺陷等[2-8]。随着现实生活中计算机视觉系统的逐渐复杂化和智能化,小目标的检测任务也需要更多的关注。

本文针对目标检测特别是小目标检测问题,首先归纳了常用的数据集,系统性地总结了常用的目标检测方法,以及小目标检测面临的挑战,梳理了基于深度学习

基金项目:国家自然科学基金(61907009);广东省自然科学基金(2018A030313802)。

作者简介:刘洋(1997—),男,硕士研究生,CCF会员,研究领域为计算机视觉、图像处理,E-mail:;战荫伟

(1966—),男,教授,研究领域为计算机图形学、图像处理和视频分析、人机交互、数字媒体的应用。

收稿日期:2020-09-02

修回日期:2020-10-20

文章编号:1002-8331(2021)02-0037-12

382021572的小目标检测方法的最新工作,并简要评述,最后对其优劣进行总结及未来可能发展方向进行讨论。

片中心,缺乏多样性,目标检测领域中也很少使用。MSCOCO数据集是目前最具有挑战性的目标检测数据集,值得一提的是,相比于VOC和ImageNet数据集,MSCOCO数据集具有更多的小目标以及更密集的目标分布(平均每张图像包含7.2个目标),所以也更为贴近现实环境。继MSCOCO数据集之后,针对视觉关系的检测,推出了规模空前开放图像检测(OpenImageDetec-tion)挑战赛,包含600个对象类别和1910000张图像。DOTA数据集[17]针对航空图像,包含2806张尺寸大约为4000×4000的航空图像,15个类别共计188000个实例。对于航拍图像中的较小的车辆目标检测,2016年Razakarivony等人[18]建立了VEDAI数据库。同年Zhu等人[19]提出一种针对交通标志进行检测的方法,并建立TT100k数据集,这也是迄今为止最大的交通标志数据集,拥有100000张图像和128类共计30000个实例。而在行人检测方面,常用的KITTI数据集[20]和CityPerson数据集[21]中的行人尺寸都比较大,不适用于较小的行人,针对这一问题,Yu等人[22]建立TinyPerson数据集用于微小行人的检测,相应标注示例如图1所示。

由此也可以看出,目前通用目标检测数据集已经相对完善,但是对于小目标的数据集仍旧十分匮乏,只有一些特定领域下的小目标数据集。这主要有两方面原因,一方面小目标的检测在一定程度上还不够受重视,标注人员也会忽视,标注的时候也容易出现偏差;另一方面,某些应用场景中,小目标的出现属于个别现象,导

1数据集与评价指标1.1数据集

为了更好地进行研究,出现了许多目标检测数据集。数据集在整个目标检测领域的发展历史中占据了重要位置,数据量充足且具有针对性的数据集是开发先进的目标检测算法的关键,也是不同算法用于对比的一个评价基准。在过去十年里,目标检测领域出现了许多知名的数据集,包括SUN、PASCALVOC、ImageNet、MSCOCO、OpenImage等[9-14]。而针对一些特定领域的目标检测,尤其是应用领域中有大量小目标需要检测的情况,譬如航拍图像中的物体检测、遥感卫星图像中的物体检测等,也提出了许多相关数据集。相关数据集对比如表1所示。

早期加州理工学院提出的Caltech数据库[15-16],包含Caltech101和Caltech256两个数据集,但缺乏类间差异,目前已经很少使用。针对这一问题,SUN数据集在场景的多样化上进行推进。PASCALVOC挑战赛是早期计算机视觉界中最重要的比赛之一,在2005年到2012年每年都会举办,包含多种任务,如图像分类、目标检测、语义分割和动作检测等,大大推动了目标检测的发展。ImageNet数据集的数据量相比于VOC数据集扩大了两个数量级,由于数据量太大同时标注的物体大多居于图

表1

数据集名称Caltech101Caltech256SUNVOC2007VOC2012ImageNetILSVRC2014ILSVRC2017MSCOCO

图像总数9145306071310729963110超过1400万5168402188328000

图像种类1012569082020218411000100091

图像大小300×200300×200500×300500×3770×380500×400500×400500×4000×480

相关目标检测数据集对比

年份200420072010201020152009201420172014

基本介绍

一致的图像大小,样本数量较少,易于训练检测,但泛化性较差相比于Caltech101样本数量增加了两倍,种类数也增加两倍,在当时环境下具有很好的训练检测效果,但图像缺乏类间差异泛化性仍旧较差场景多样化,多达908种不同场景,检测难度较大,有助提高模型对不同场景的学习理解

标准化的图像分类数据集,具有准确的标注数据,多为真实场景下的图像数据,检测难度相对较大,因其标准化的标注流程,目前自制数据集多采用VOC数据集标准

超大型数据集,数据量大,训练难度高,检测难度大,但因其目标较大且多居于图像中心,缺乏多样性,所以多用作各类计算机视觉任务模型预训练数据集

大型数据集,数据量大样本多样性强,场景复杂且贴近现实场景,有超过一半的图像中包含大小不超过32×32的小目标,检测难度极大,是目前最具有挑战性的目标检测数据集

数据量大且横跨种类多,并且比ImageNet更为贴近现实场景,十分具有挑战性

用于航空图像的大型数据集,形状多样尺度丰富,能够很好地代表真实的航拍地球视觉,训练检测难度大

针对航拍的车辆检测,多方向、复杂光影且具有遮挡,检测困难大型交通标志数据集,数据量大且环境复杂,检测难度高但泛化性强为远距离大背景小目标检测开辟新道路,经过标注的小目标最小甚至低于20像素,非常具有挑战性

OpenImageDOTAVEDAITT100kTinyPerson

1910098280612001000001610

6001591285

不定4000×40001024×10242048×2048

不定

20172018201620162019

202157239

2目标检测算法

目标检测的方法主要分为两大类:基于传统人工特

征的目标检测方法和基于深度学习的目标检测方法,如图2所示。

2.1传统目标检测算法

早期的目标检测算法大多是基于手工特征构建

的。基本思路[23]如图3所示,先在输入的原始图像上寻找可能存在目标的区域,然后对每一个区域进行特征提取,并送入分类器模型进行判断,最后分类器模型认为

图1

TinyPerson数据集示例

是目标的区域进行筛选等后处理操作从而得到结果。由于当时缺乏有效的图像表示,人们别无选择,只能设计复杂的特征表示,并使用各种加速技术来耗尽有限的计算资源。

原始图像寻找目标区域提取特征分类器分类筛选结果致这类样本稀缺训练集分布不均匀,训练效果不理想。小目标数据集的标注和数据量的不足,也是阻碍小目标检测相关工作进展的重要因素。

1.2评价指标

在介绍算法之前,需要了解几个常见的目标检测评

价指标术语。假定待分类目标只有正例(positive)和负例(negative)两种,则有以下四个指标:(1)TP(TruePositives),被正确识别成正例的正例;(2)FP(FalsePositives),被错误识别成正例的负例;(3)TN(TrueNegatives),被正确识别成负例的负例;(4)FN(FalseNegatives),被错误识别成负例的正例。

则有如下定义,准确率(Precision)指预测的总实例中,被正确识别成正例的正例数所占的比率,如式(1);召回率(Recall)指待测试的所有正例样本中,被正确识别成正例的正例数,如式(2);一般来说,准确率和召回率成反比的关系。

Precision=TP/(TP+FP)Recall=TP/(TP+FN)

图3传统目标检测方法基本流程

(1)(2)

2.1.1VJ检测器

19年前,Viola和Jones设计了一款高效的人脸检测器,比当时其他检测器的速度提升了几十倍,这是人脸检测乃至计算机视觉领域发展的一项里程碑,为了纪念这项工作,人们将之命名为Viola-Jones(VJ)检测器[24-25]。VJ检测器采用滑动窗口的检测方法,采用Haar特征来描述每一个窗口,并引入了积分图来加速Haar特征的提取,使得每个窗口的计算复杂度与窗口大小无关,结合Adaboost算法[26]进行特征的选择,并引入级联思想,减少背景窗口计算量,增加人脸目标计算量,提升精度的同时降低了计算规模。

2.1.2HOG特征

方向梯度直方图(HOG)特征[27]最早是由Dalal等人对于行人检测问题提出的一种局部特征。顾名思义,HOG特征通过计算图片某一区域中不同方向上的梯度值进行累积形成直方图,作为这片区域的特征。HOG特征能较好地提取图像的局部细节信息,在图像的几何形变、光学畸变等情况下,都具有较好的特征不变性,多年来,HOG特征一直是许多目标检测器和各类计算机视觉系统的基础。

SSDRetinaNetYOLOv3GaussianYOLOv3OneStage

以召回率为横坐标轴,准确率为纵坐标轴,在一定阈值的基础上形成的曲线被称之为P-R曲线,P-R曲线所围成的面积,即为平均精度(AveragePrecision),简称为AP。通常情况下,性能越好的分类器,AP值越高。对多个类别求平均AP值,即为mAP(meanAveragePrecision),mAP通常用以表示模型在多个类别上的性能好坏。

VJ检测器HOG特征DPM算法2012YOLO2001200420062008深度学习的兴起AlexNet的引入201420152016201720182019TwoStage

RCNNSPPNetFastRCNNFPNFasterRCNNCascadeRCNN图2目标检测发展时间轴

4020215722.1.3可变部件模型(DPM)

针对HOG特征处理遮挡问题表现较差的不足,2008年Felzenszwalb等人[28]提出了DPM算法,而后联合Girshick等人进行了各种改进[29-31],在当时表现优异,连续获得VOC挑战赛2007、2008、2009三年的冠军。DPM算法采用一种“分而治之”的思想,可以将训练检测过程看作是对象的各个部件的学习以及各个部件检测的集合,并对HOG特征进行改进,取消了HOG特征中的块,只保留了单元。并在后续改进中,结合了一些其他的重要技术思想来提高精度,如难例挖掘、边界盒回归等,对现在仍有着深刻的影响。

2.2基于深度学习的目标检测算法

随着人工特征对目标检测算法的性能推进趋于饱

和,人们开始将目光转向深度卷积网络上,相比于人工特征,深度神经网络提取出的特征虽然可解释性不强,但是在语义的表示能力上远远超过传统人工特征,因此基于深度学习的目标检测方法逐步取代了基于人工特征的方法,以卷积神经网络为代表的深度学习模型逐渐成为主流。基于深度学习的目标检测方法根据检测思想的不同可以分为两阶段(twostage)方法和单阶段onestage)方法。

2.2.1两阶段目标检测方法

2014年,Girshick等人[32]率先打破目标检测发展缓慢的僵局,提出了RCNN算法,开创性地将候选区域生成和深度学习的分类方法结合起来。其背后的思想很简单,如图4所示:先通过选择性搜索[33]提取出一组对象候选框,然后将每个候选框重新调整为固定大小的图像,并将其输入到卷积神经网络模型中,以提取特征。最后,利用线性支持向量机分类器对每个区域内的目标进行预测和分类。虽然在当时RCNN已经取得了很大的进步,但是其缺点也很明显:由于一张图像生成超过2000个候选框,在大量重叠的候选框进行了冗余的计算导致检测的速度极慢,在GPU上运行一副图像大约需要14s。

warpedregionaeroplane?noperson?no︙CNN︙tvmonitor?no1.Input2.Extractregion3.Compute4.ClassifyimageproposalsCNNfeaturesregions

(~2000)

图4RCNN算法结构

同年晚些时候,He等人[34]提出了SPPNet方法,设计了一种空间金字塔池化层,能够从不同大小的特征图中提取相同长度的特征向量,实现了多尺度输入,大大节省了计算时间。但是仍然存在一些不足,模型训练仍然是多阶段的。Girshick[35]在2015年提出了FastRCNN算法,做出了进一步改进,创新性地提出了多任务损失,

同时训练分类器和包围盒回归器,实现了检测阶段的端到端训练,精度和速度都大大提高。虽然FastRCNN结合了RCNN和SPPNet的优点,但由于候选框的选取仍是使用选择性搜索,检测速度仍旧受到。所以,Ren等人[36]在不久之后针对这一缺陷提出FasterRCNN算法,引入了RPN网络,使得候选框生成几乎不需要成本。FasterRCNN算法使用锚点(anchor)来生成初始候选区域,再通过RPN来判断该区域是属于目标还是背景,将属于目标的区域送入后续结构中处理。

从RCNN到FasterRCNN,一个目标检测系统中的大部分模块都逐渐集成到一个统一的端到端的框架中,FasterRCNN是首个端到端,接近实时的深度学习目标检测器。在RCNN系列的开创性工作之后,针对这一系列的改进工作也如雨后春笋。Dai等人[37]提出了基于区域的全卷积网络(RFCN),改进了ROIpooling层以后的网络,以全卷积得到的位置敏感得分图代替全连接,大幅提升检测速度。He等人[38]提出的Mask-RCNN,融合了分割和检测任务,使用插值对ROI进行对齐,进一步提高了检测精度。在2017年,Lin等人[39]基于FasterRCNN提出了特征金字塔网络(FPN)。在此之前,大多基于深度学习的检测器只在网络的顶层进行检测,虽然CNN的深层特征有利于类别识别,但是不利于目标的定位。为此,在FPN中开发了具有横向连接的自顶向下的体系结构,用于在所有层级上都能提取较强的语义信息。FPN在各种尺度的检测任务上取得了巨大进步,现如今已成为许多最新检测模型的基本组成部分。

2.2.2单阶段目标检测方法

基于深度学习的单阶段目标检测的一般流程有所不同,如图5所示,因为此类方法往往没有在候选区域上分类的过程,而是直接回归输出类别。

1.Resizeimage.2.Runconvolutionalnetwork.3.Non-maxsuppression.

图5单阶段目标检测方法基本流程

2016年,Redmon等人[40]提出了YOLO算法,这是深度学的第一款单阶段目标检测算法,它的速度非常快。如图6所示,该网络将图像分割成网格,同时预测每个网格区域的包围盒boundingbox和分类概率,单个神经网络可经过一次运算从完整图像上得到结果,有利于对检测性能进行端到端的优化。不过YOLO也有着泛化能力弱、检测精度较低的问题,其后Redmon等人[41-42]陆续推出了YOLO9000和YOLOv3逐步改进这些问题。

而后在2016年,结合了RCNN的anchor机制和YOLO的回归思想,Liu等人[43]提出了SSD算法,引入了多尺度

(Boundingboxes+confidenceS×SgridoninputFinaldetectionsClassprobabilitymap

图6YOLO算法结构

的检测方法,在每一个尺度提取的特征图上都进行检测。Lin等人[44]为了研究单阶段检测方法在精度上落后于两阶段检测方法,在2017年提出了RetinaNet。他们认为训练过程中的类别的不平衡导致了单阶段方法在精度上的劣势,因此提出了FocalLoss来代替传统的交叉熵,改进了背景样本的权重,使得模型在训练过程中更偏向于较难检测的目标样本。

3小目标检测

尽管近年来目标检测取得了巨大进展,但是上述方

法也只是对于常规的目标检测问题有较好效果,提取出的特征对于小目标的表示能力较差,对于小目标的检测效果不太理想。根据MSCOCO数据集的定义,通常将尺寸小于32×32像素的目标定义为小目标。Huang等人[45]的研究表明,现阶段的检测器,小目标的平均精度大约比大目标低10倍,这并非说明卷积神经网络所提取的特征表示能力不够,而是小目标的分辨率太低,能提供给模型的信息较少,这也是目前目标检测发展的瓶颈之一,越来越多的专家学者们也将目光转向小目标检测领域并开展研究,目前也已提出一系列有效的改进方法。

3.1基于多尺度的小目标检测方法

现有通用目标检测的卷积模型,大多采用卷积模型的最顶端特征进行预测,小目标的信息量较少,所以需要更好地利用图像的细节信息。在一个卷积神经网络中,低层的特征往往能很好地表示图像的纹理、边缘等细节信息,而高层特征往往能很好地表示图像的语义信息,但是相应的随着卷积池化的进行也会忽略掉一些细节信息。针对这一因素,Liu等人[43]率先引入多尺度的思想,提出了SSD算法,在每一个尺度提取的特征图上都进行预测,对小目标的检测相比于YOLO算法有较好的提升。虽然浅层的特征能更好地表示细节信息,但由于语义信息的不丰富,加之小目标所对应的anchor较少,无法得到充分的训练,实际应用中SSD的效果仍旧

不尽如人意。Fu等人[46]

针对SSD对于小目标因为对应anchor较少训练不充分做出改进,如图7所示,采用

ResNet[47]替换了SSD中的VGG[48]

模型,并使用反卷积

202157241

(Deconvolution)层,将图片分成更小的格子,从而减少

漏检率。但由于DSSD引入了ResNet模型,有着更为复杂的残差连接和横向连接,并且在模型中的预测模块和反卷积模块添加了额外层,引入了额外开销,导致DSSD算法在预测速度上并不如SSD算法。

conv3_xreylaalningoiirtOcconv4_xconv5_xidSSDlayererPconv1pool1conv2_xconv3_xPredictionconv4_xconv5_xpool1conv2_xconv1DeconvolutionDSSDlayer图7SSD与DSSD算法结构

Singh等人[49]从数据集的角度思考,认为目前数据

集中的目标物体尺度差异较大,小目标相对于待检测图片而言尺寸过小,提出一种多尺度的训练方法——图像金字塔的尺度归一化(SNIP),在金字塔的每一个尺度上进行训练,高效地使用所有训练数据,虽对小目标的检测效果有显著提升,但是速度较慢。

Lin等人[44]提出的特征金字塔网络(FPN)使用采样的方式融合了细节信息较多的底层特征和语义信息较多的高层特征,虽然效率略有降低,但增强了所提取出的深度特征对于小目标的表达能力,效果也优于一般通用检测方法,而后也衍生出众多基于FPN的改进方法。Cao等人[50]将FPN的思想结合至SSD,从而提升SSD算法对小目标的检测效果,由于其注重模型的轻量化,参数略少,背景信息中的噪声无法更好地筛除,相比于同使用特征融合思想的DSSD算法精度略低。Liu等人[51]在FPN的基础上,将模型最底层的特征与最高层的特征相连接,缩短了顶层与底层之间的信息路径,进一步增强了每一层特征图之间的联系。

Shrivastava等人[52]提出一种类似FPN的结构,用另一种方式实现了Top-Down的特征融合,提升小目标的检测效果,该算法的融合并不像FPN一样采用单纯的加权叠加,而是利用卷积进行融合,该算法核心在于其Top-DownModulation模块,该模块核心结构可以自行选择,但由于是卷积进行特征融合,导致每新加一个该模块网络就要逐步训练一次,训练过程较为繁琐,不一定适用实际场景。其后Ghiasi等人[53]和Xu等人[]相继提出NAS-FPN和Auto-FPN对FPN算法进行优化,不同于之前的人工设计的网络结构,将Auto-ML技术应用于目标检测上,使得神经网络自动搜索设计从而提升FPN算法的效率。Guo等人[55]为更好地利用多尺度特征,引

422021572入一种新的特征金字塔结构——AugFPN,利用一致性

监督在特征融合前缩小语义差距,并采用残差特征以减少卷积池化过程中的信息丢失,最后提出一种Soft-ROI选择方法以更好地学习特征,在ResNet50网络上平均精度提升了2.3个百分点,但模型的复杂化导致在相同条件下,采用AugFPN算法的训练时间和帧率都要逊于FPN算法,如在ResNet50网络上训练每个epoch,采用AugFPN的FasterRCNN需要1.1h,而采用FPN的只需0.9h,帧率则分别为11.1帧和13.4帧。Rashwan等人[56]认为之前的多尺度方法并没有考虑长宽尺度的因素,提出MatrixNet模型,如图8所示,并在MSCOCO数据集上达到了47.8%的平均精度,高于其他任何现有最先进的单阶段目标检测方法,不过该方法虽然采用了基于矩阵的层级预测机制,但并未考虑将不同层级的语义信息

结合,比如高层低分辨率和底层高分辨率,同时结合所

提出的长宽尺度思想,或许可以在精度上更进一步。

由此也可以看出,为了得到更好的效果,获取更多有效的小目标特征信息,多尺度的检测模型也从最初的单层特征,向多层特征融合转变,同时多层特征融合也从最开始的简单加权叠加,逐步发展为卷积融合以及在模型上添加一定的残差特征块等,模型的逐步冗余复杂化,虽然能逐步提高检测效果,但导致其更难在实际场景中得到应用。因此一些学者也开始在模型的轻量化上做研究,并提出了一些优秀模型,如MobileNet[57-59]、ShuffleNet[60-61]等,并将其应用于现有的一些优秀方法中,模型相关介绍如表2所示。在降低模型复杂度的情况下如何更好地保持检测精度也是一个重难点问题,在应用轻量化模型的同时,研究人员也提出一些结合轻量化策略的目标检测方法,如表3所示。

3.2

12345

1

2

3

4

5

基于超分辨率的小目标检测方法

图8MatrixNet模型结构

表2

由于小目标在图像中所占像素少、分辨率低,所以小目标检测的另一种直接方法是生成高分辨率图像作为检测模型的输入。Hu等人[67]利用双线性插值获得了两次上采样的输入图像来训练卷积模型,Fookes等人[68]使用传统的超分辨率技术来更好地识别人脸。虽然这样提升了输入图像的分辨率有益于小目标的检测,但也带来了其他问题,超分辨率模型与检测模型是相互训练的,经由超分辨率模型生成的高分辨率输入图像中也包括无需检测以及对检测不必要的对象和因素,而输

轻量级网络简要介绍及对比

基本介绍

在ImageNet上的分类效果/%

70.672.075.267.869.457.5

模型名称MobileNetv1MobileNetv2MobileNetv3ShuffleNetv1ShuffleNetv2SqueezeNet[62]

参数量/106

4.203.405.401.902.301.25

可用于移动端的轻量级网络模型,采用深度可分离卷积来代替普通卷积,参数量和计算量都大大减少,但直筒型结构对特征的学习并不充分

引入了沙漏型残差结构先升维再降维,增强梯度传播以及减少计算量,并去掉最后一层的ReLU函数,保留特征多样性

利用网络结构搜索算法改进模型结构,同时引入SE模块,结合通道注意力机制加强网络学习能力,并提出h-swish激活函数以提高精度

采用逐点组卷积以减少1×1卷积的计算复杂度,并提出通道变换的方法促使信息在不同特征通道中流动,但输入和输出的通道数差别太大仍旧影响效率弃用分组卷积,引入通道分割操作以减少网络分支数,在保证一定精度的情况下,获得了更快的检测速度

将3×3卷积替换为1×1卷积,同时减少卷积通道数,并将降采样操作后置以大幅减少参数量和计算量,以精度的降低最大限度地换取速度的提升

表3

方法名称CSPNet[63]YOLONano[]

年份20192019

结合轻量化策略的目标检测方法

性能

并且提升了2%的精度型大小仅有4MB

基本介绍

中的重复梯度信息,来达到轻量化的目的

模块针对嵌入式环境大幅降低计算量,但仅限嵌入式环境下

从网络体系结构的角度入手,采用跨阶段特征融合优化网络在相同环境下,相比于yolov3,计算量减少了接近30%通过人机协作设计策略,设计PEP宏架构,结合全连接注意力在VOC2007数据集上达到69.1%的平均精度,并且模基于ShuffleNetv2,压缩RPN模块,提出上下文增强模块,利在COCO数据集上得到19.1%的AP值,与采用Mo-

ThunderNet[65]2019用1×1卷积压缩通道,达到特征融合效果的同时减少计算成bileNet的SSD精度相仿,但是速度快近5倍,计算成本本,并引入空间注意力机制优化特征分布减少计算量

显著降低

练策略可以达到29.6%,为当前效果最好的轻量网络

针对检测任务提出新骨干网络Res2NetLite,保证输入输出通COCO数据集上达到26.8%的AP值,结合其提出的训道数相同,着重优化损失函数和训练策略

RefineDeLite[66]2020

202157243

入图像分辨率的增加使得整体架构过分沉重,模型的训练和预测时间都会大幅增加,降低了在实际应用的可能性。Haris等人[69]也针对这一问题提出一种端到端联合训练超分辨率模型和检测模型的架构,但仍旧有大量与检测任务无关的图像执行超分辨率从而拉低整体效率。

随着深度学习在超分辨率技术上[70]的逐步应用,人们开始将目光从输入图像的分辨率提升转移到了特征的分辨率提升。Krishna等人[71]基于FasterRCNN算法将超分辨率网络整合进目标检测模型中,从而提升提取特征的效果,但是由于小目标本身包含的信息量不足,所提取的特征在经过超分辨率后效果仍旧不是很好。而

[73]

后Ledig等人[72]首次将生成对抗网络(GAN)应用于超分辨率技术上并超越了以往的基于深度卷积网络的超分辨率模型,与双线性插值调整图像分辨率的方式相比,利用GAN来进行超分辨率生成的图片质量更高、伪影更少,虽然相比于以往的超分辨率方法效率较低,但这也给小目标检测的特征增强开拓了新的研究思路。Li等人[74]认为小目标的特征虽然包含的信息量少,但是与常规目标特征之间是具有某种映射关系的,于是率先将生成对抗网络应用于小目标检测上,提出了感知生成对抗网络(PerceptualGAN),利用GAN来学习这种映射关系并缩小小目标与常规目标之间的特征差距以达到提升小目标检测效果的目的。如图9所示,PerceptualGAN分为生成器与判别器两个子网络,先利用包含常规目标的图像训练判别器的底层卷积与感知分支,而后利用生成器训练包含小目标的图像,生成小目标特征的超分表示,通过判别器的对抗分支来区分小目标特征的超分表示与常规目标特征,引入PerceptualLos联合交替训练,不断提高生成器的生成能力和判别器的判别能力,使生成器生成的小目标超分特征逐渐接近常规目标特征,最终在TT100k数据集上相比于FasterRCNN算法的小目标检测率取得了较为明显的提升。随后Bai等人[75]也提出一种利用GAN来针对ROI进行超分辨率的小目标检测算法——SOD-MTGAN,并可于任何现有的检测器结合使用,但由于针对ROI区域,忽略了小目标的上下文信息。Noh等人[76]的工作证明,现有用于小目

GeneratorNetwork

conv1conv2conv3conv4conv5

ROIPoolingPooledFeatures标的特征级超分辨率模型缺乏直接的监督,训练不稳定,了超分辨率特征的质量,同时在针对整体图像特征的超分辨率任务时,高低分辨率特征对的相对感受野差别不大,而小目标检测所针对的小目标特征差异较大,也会对生成效果带来影响。

总之,目前基于多尺度的方法通常通过结合多个低层特征来增强高层特征,以增加特征维度和信息量,无法保证所构造的特征对小目标具有足够的可解释性和区分性,而目前的基于超分辨率的小目标检测方法相对而言解释性较强,效果也十分可观,在MSCOCO、TT100k等数据集上也取得了十分具有竞争力的结果,但是硬件要求相对较高,极度依赖海量的数据,未来仍有大幅的提升空间。

3.3其他方法

除开基于多尺度和超分辨率的小目标检测方法外,还有一些比较优秀的方法。Takeki等人[77]针对天空大背景下的小目标鸟类识别,提出了一种联合了语义分割方法的小目标检测方法,并利用了小目标的弱语义性,将全卷积网络的变体和卷积网络结合并集成支持向量机,但是仅针对该特定环境难以进行扩展。在遥感卫星图像小目标检测领域中,Ren等人[78]对FasterRCNN的RPN模块进行研究,提出常规RPN模块对应的anchor框尺度太大,无法覆盖遥感数据集中的小目标,所以专门设计对应小目标尺度的RPN模块,并结合上下文信息以改进模型性能,并在他们自制的SORSI遥感数据集(包含5216张轮船图像和706张飞机图像)上达到了78.9%的平均精度,但受限于训练样本,对于复杂场景中的遥感目标和密集的小型光学遥感目标效果依旧不佳。在小人脸检测方面,Zhang等人[79]参考OHEM[80]中的难负例挖掘思想,在图像级和特征级上动态地给训练图像分配难度分数,以判断图像是否已被很好地检测或是对进一步的训练有用,充分利用那些未被完美检测的图像以更好地监督接下来的学习过程,并在WIDERFACE数据集上获得了优异表现,尤其是hard子集上也达到了.7%的精度。Luo等人[81]提出一种四分支人脸检测体系结构,将大中小脸分开进行处理,并采用特征融合技

DiscriminatorNetwork

DiscriminatorAdversarialBranchLargeObjectsFCFCFeaturesSigmoidAdvFCInputPreceptionBranchFCFCFCClsFCBboxSuper-Resolved

FeaturesEltwiseSum10

Generator3×31×1BResidualBlocksconvconvconvReLuESBNconvSuper-ResolvedFeatures

图9PreceptualGAN模型结构

442021572术的同时增加更多的anchor匹配小脸,进一步提高了对小人脸的检测能力。

Chen等人[82]在RCNN的基础上进行扩展,改进后的RCNN模型可以针对小目标检测任务生成更小的候选框,虽然在精度上有所提升,但是对计算资源要求太大,效率低,无法实现实时检测。Eggert等人[83]也在RCNN的基础上进行改进,对如何anchor尺寸进行探讨,并对特征图分辨率与小目标检测效果的关系进行研究,而后修改了候选框的生成方法用于公司商标的检测[84]。Cai等人[85]提出,现有的检测模型的检测结果,boundingbox并不是特别准,很容易被噪声干扰,经过研究发现,对于不同的IoU阈值,阈值越高,网络对于准确度较高的候选框的效果也就越好。针对这一结论,提出一种级联区域卷积神经网络模型(CascadeRCNN),引入不同的IoU阈值,训练多个级联检测器,提高了小目标的检测精度和boundingbox的定位精度,在FasterRCNN、R-FCN、FPN三种two-stage检测器作为基准的情况下均能稳定提升3到4个百分点,但正因为不同阶段的IoU阈值不同,容易导致在前两个stage中表现较好的样本在第三个stage中获得低分被判为负样本,虽然其采用了三个stage分数平均的策略用以平衡,但仍旧会有一定的正样本被误判。

Zoph等人[86]表示,未来的轻量化模型提取特征的能力必然有限,从数据增强方面入手是增强检测效果的利

表4

文献[88]

题目

Smallobjectdetectionwithrandomdecisionforests

器,并假设当提出的特征足够好,利用数据增强可以摆

脱当前算法严重的数据驱动依赖。Kisantal等人[87]认为,小目标检测精度低主要有两个原因,一是现有公共数据集中含有小目标的图片较少,二是即便图片中含有小目标,但是出现次数少模型训练不充分,针对这点提出了一种过度采样复制粘贴小目标以增强数据的手段。如图10所示,通过复制图像中小目标粘贴到图像中的不同位置,增加了图像中小目标的数量和位置多样性,同时相对应匹配的anchor数目也会增强,从而降低了漏检率,以MaskRCNN算法为基准,在MSCOCO数据集上相比未进行数据增强的方法,小目标的检测精度提高了7.1个百分点。除此之外,还有一些学者也提出了一些基于深度学习的小目标检测算法,如表4所示。

图10通过复制粘贴小目标以达到数据增强的例子

4总结与展望

本文系统地阐述了近些年来目标检测领域的研究进展,包括传统的目标检测方法和基于深度学习的目标

其他基于深度学习的小目标检测方法

主要内容

提出一种基于随机森林的小目标检测算法用于小型无人机目标检测任务,在UIUC数据集的单目标与多目标子集上达到了98.8%与98.7%将多尺度特征串联起来,将不同层次的附加特征作为上下文,还提出一种结合注意力机制的目标检测算法,两种方法对小目标的检测效果均高于SSD

引入一个描述语义相似性的成对约束并利用候选对象的上下文信息提高微小对象的检测性能

在SSD算法中加入转置卷积结构以提高小目标检测能力

在SSD算法的基础上,进行三四卷积层的特征融合并经过空洞卷积增强分辨率以提高检测的准确性和鲁棒性

针对实时小目标检测问题,在PVANet的基础上,改进候选框选择方法以更好定位小目标

改进FasterRCNN网络结构,同时利用网络高低层特征,并利用爬虫爬取数据增强训练数据集

分割原始航拍图像并利用GAN进行超分辨率以进行增强

提出针对红外小目标检测的轻量级网络TBC-Net,并在训练过程中加入图像的高层语义约束信息以解决小目标样本不平衡的问题对模型低层特征进行区域放大提取并与高层特征融合以提高小目标检测的能力

在原模型的基础上减少部分卷积操作并引入跳层连接,保证了实时性的情况下提高了检测精度

在两阶段检测模型中引入与子区域特征和宽高比特性相关的注意力机制模块

融合深层与浅层的特征信息,并根据小目标尺寸调整先验框以获得更好的小目标检测能力

年份2017

[]SmallobjectdetectionusingcontextandattentionBeyondcontext:exploringsemanticsimilarityforsmallobjectdetectionincrowdedscenes基于改进SSD的轻量化小目标检测算法

一种加强SSD小目标检测能力的Atrous滤波器设计基于改进PVANet的实时小目标检测方法面向小目标的多尺度FasterRCNN检测算法Asmallobjectdetectionsolutionbyusingsuper-resolutionrecovery

TBC-Net:areal-timedetectorforinfraredsmalltargetdetectionusingsemanticconstraint多尺度卷积特征融合的SSD目标检测算法改进YOLOv3在航拍目标检测中的应用结合注意力机制的深度学习图像目标检测基于特征融合的SSD视觉小目标检测

2019

[90][91][92][93][94][95][96][97][98][99][100]

20192018201920202019201920192019202020192020

检测方法,并对时下热门的相关数据集进行了综述与分析。重点关注目标检测领域中较为困难的小目标检测问题,分析了近几年来国内外在小目标检测问题上的一些改进算法,希望能给相关领域内的科研人员带来新的研究思路。虽然现有小目标检测算法已经取得了一些成果,但精度依然很低,随着现实生活中部署的计算机视觉系统的逐渐复杂化,小目标检测的精度要求也会逐渐提高,通过对上述技术的总结分析,提出以下几点观点。

(1)结合传统方法进行小目标检测。虽然基于深度学习的方法是近年来的主流,但大量工作表明由于小目标包含的信息量少,语义信息不充分,利用深度卷积网络提取的特征虽然语义信息充分,对于小目标而言效果却不是很好。考虑研究一些对小目标更具有表征能力的特征,结合一些非深度学习的方法用以特征提取,如随机森林、图像的局部秩等,或许可以起到更好的效果。

(2)引入注意力机制。现如今的多尺度检测网络已经可以很好地利用来自网络浅层的特征信息,但浅层特征同时也有来自图像背景的噪声信息,考虑引入注意力机制来进行检测可以有助于减少不必要的浅层特征信息,以提高小目标的检测效果。如2018年Hu等人提出的SENet[101],其作为通道上的注意力机制,强化重要通道的特征,弱化非重要通道的特征,可以灵活地嵌入各种网络结构中以提升效果,作为一款轻量级结构,额外增加的计算量相对较少。除了通道上的注意力机制,还有空间方向的注意力机制,通过空间方向的变换,使得目标样本的局部空间特征更容易被学习,相比于通道方向的,计算量略微有所增加,但可以获得更高的精度。可以考虑将二者进行结合,针对小目标灵活设计结构,以获得更低的计算代价和更高的精度。

(3)构建更为完善的小目标检测数据集。虽然现有的VOC数据集、COCO数据集都得到了研究人员的广泛认同,但深度学习方法的发展始终离不开数据。而上述数据集中的小目标样本仍旧不够充分,样本的不平衡、样本量的不够,都阻碍着小目标检测的发展,因此仍需要考虑建立一个专门的小目标检测数据集,或者另辟蹊径,采用某种数据增强的方式来建立小目标的仿真数据集,也不失为是一个补充训练样本的好办法。

(4)模型的轻量化,以提高检测系统的实时性、准确性和鲁棒性。随着时代发展,各个领域中小目标检测的需求也逐渐增多,而在目前的研究中,为了提高精度,往往模型都十分冗余,比如增加超分辨率模块导致运算量的大幅提升。要想在实际应用中发挥效果,必须保证模型的实时性、准确性和鲁棒性。因此如何保证模型的轻量化的同时又不失准确性也将会成为未来的研究热点。

(5)在模型训练过程中,着重针对小目标进行训练。现下的模型对大中目标检测效果好,对小目标检测效果差也是由于在训练过程中对小目标的监督不够完善,小目标的损失对整体的模型损失贡献较少,考虑在训练过程中专门针对小目标着重采样,提高训练质量。

202157245

(6)基于anchor-free的小目标检测方法研究。虽然

现在的基于anchor的目标检测方法已经十分出色,在单阶段与两阶段方法上都得到了广泛应用,但仍旧存在许多不足。由于基于anchor的方法都有一组预先定义的尺度框,导致对尺度较小的目标不够敏感,或者需要专门预设针对小目标的尺度框,但这样对硬件的要求极高。同时预设的尺度框多为负样本,容易造成正负样本的不平衡从而影响训练效果。所以考虑研究无锚点的方法进行小目标检测,最近也有一些研究证明anchor-free的方法一样可以达到接近基于anchor的目标检测方法的效果,将anchor-free的方法用以小目标检测,或许也能使小目标检测的研究得到推动。

目前基于深度学习的方法已成为主流趋势,并从简单的模型逐渐向复杂模型进行演化,多尺度特征融合、通过更高的分辨率提升小目标的检测效果、数据的增强等,都是小目标检测未来发展的趋势。虽然现有小目标检测算法已经取得了一些成果,但精度依然很低,随着现实生活中部署的计算机视觉系统的逐渐复杂化,小目标检测的精度和实时性要求也会逐渐提高,还有很长的一段路要走,未来可以考虑引入注意力机制以及在高分辨率轻量级网络上进行发展。

参考文献:

[1]ZOUZ,SHIZ,GUOY,etal.Objectdetectionin20years:

asurvey[J].arXiv:1905.05055,2019.

[2]DESHMUKHVR,PATNAIKGK,PATILME.Real-time

trafficsignrecognitionsystembasedoncolourimagesegmentation[J].InternationalJournalofComputerAppli-cations,2013,83(3):30-35.

[3]SERMANETP,LECUNY.Trafficsignrecognitionwith

multi-scaleconvolutionalnetworks[C]//The2011InternationalJointConferenceonNeuralNetworks,2011:2809-2813.[4]OUYANGW,WANGX.Jointdeeplearningforpedestrian

detection[C]//ProceedingsoftheIEEEInternationalCon-ferenceonComputerVision,2013:2056-2063.

[5]BOTTEMAMJ,SLAVOTINEKJP.Detectionandclas-sificationoflobularandDCIS(smallcell)microcalcifi-cationsindigitalmammograms[J].PatternRecognitionLetters,2000,21(13/14):1209-1214.

[6]ABOUELELAA,ABBASHM,ELDEEBH,etal.Auto-matedvisionsystemforlocalizingstructuraldefectsintextilefabrics[J].PatternRecognitionLetters,2005,26(10):1435-1443.

[7]MODEGIT.Smallobjectrecognitiontechniquesbased

onstructuredtemplatematchingforhigh-resolutionsat-elliteimages[C]//2008SICEAnnualConference,2008:2168-2173.

[8]KAMPFFMEYERM,SALBERGAB,JENSSENR.Seman-ticsegmentationofsmallobjectsandmodelingofuncer-taintyinurbanremotesensingimagesusingdeepcon-volutionalneuralnetworks[C]//ProceedingsoftheIEEE

462021572ConferenceonComputerVisionandPatternRecognitionWorkshops,2016:1-9.

[9]XIAOJ,EHINGERKA,HAYSJ,etal.Sundatabase:

exploringalargecollectionofscenecategories[J].Inter-nationalJournalofComputerVision,2016,119(1):3-22.[10]EVERINGHAMM,VANGOOLL,WILLIAMSCKI,

etal.Thepascalvisualobjectclasses(voc)challenge[J].InternationalJournalofComputerVision,2010,88(2):303-338.

[11]EVERINGHAMM,ESLAMISMA,VANGOOLL,

etal.Thepascalvisualobjectclasseschallenge:aretro-spective[J].InternationalJournalofComputerVision,2015,111(1):98-136.

[12]RUSSAKOVSKYO,DENGJ,SUH,etal.Imagenetlarge

scalevisualrecognitionchallenge[J].InternationalJour-nalofComputerVision,2015,115(3):211-252.

[13]LINTY,MAIREM,BELONGIES,etal.Microsoftcoco:

commonobjectsincontext[C]//EuropeanConferenceonComputerVision.Cham:Springer,2014:740-755.

[14]KRASINI,DUERIGT,ALLDRINN,etal.Openimages:

apublicdatasetforlarge-scalemulti-labelandmulti-classimageclassification[EB/OL].[2020-05-10].https://github.com/openimages.

[15]FEI-FEIL,FERGUSR,PERONAP.Learninggenerative

visualmodelsfromfewtrainingexamples:anincre-mentalBayesianapproachtestedon101objectcatego-ries[C]//2004ConferenceonComputerVisionandPat-ternRecognitionWorkshop,2004:178.

[16]GRIFFING,HOLUBA,PERONAP.Caltech-256object

categorydataset[R].CaliforniaInstituteofTechnology,2007.[17]XIAGS,BAIX,DINGJ,etal.DOTA:alarge-scale

datasetforobjectdetectioninaerialimages[C]//Pro-ceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2018:3974-3983.

[18]RAZAKARIVONYS,JURIEF.Vehicledetectioninaer-ialimagery:asmalltargetdetectionbenchmark[J].Jour-nalofVisualCommunicationandImageRepresentation,2016,34:187-203.

[19]ZHUZ,LIANGD,ZHANGS,etal.Traffic-signdetec-tionandclassificationinthewild[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2016:2110-2118.

[20]GEIGERA,LENZP,URTASUNR.Arewereadyfor

autonomousdriving?thekittivisionbenchmarksuite[C]//2012IEEEConferenceonComputerVisionandPat-ternRecognition,2012:33-3361.

[21]ZHANGS,BENENSONR,SCHIELEB.Citypersons:a

diversedatasetforpedestriandetection[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPat-ternRecognition,2017:3213-3221.

[22]YUX,GONGY,JIANGN,etal.Scalematchfortiny

persondetection[J].arXiv:1912.106,2019.

[23]PAPAGEORGIOUCP,ORENM,POGGIOT.Ageneral

frameworkforobjectdetection[C]//SixthInternationalConferenceonComputerVision,1998:555-562.[24]VIOLAP,JONESM.Rapidobjectdetectionusinga

boostedcascadeofsimplefeatures[C]//Proceedingsofthe2001IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition,2001.

[25]VIOLAP,JONESMJ.Robustreal-timefacedetection[J].

InternationalJournalofComputerVision,2004,57(2):137-1.

[26]FREUNDY,SCHAPIRER,ABEN.Ashortintroduc-tiontoboosting[J].Journal-JapaneseSocietyForArtifi-cialIntelligence,1999,14:1612.

[27]DALALN,TRIGGSB.Histogramsoforientedgradi-entsforhumandetection[C]//2005IEEEComputerSoci-etyConferenceonComputerVisionandPatternRec-ognition,2005:886-3.

[28]FELZENSZWALBP,MCALLESTERD,RAMANAND.

Adiscriminativelytrained,multiscale,deformablepartmodel[C]//2008IEEEConferenceonComputerVisionandPatternRecognition,2008:1-8.

[29]FELZENSZWALBPF,GIRSHICKRB,MCALLESTER

D.Cascadeobjectdetectionwithdeformablepartmod-els[C]//2010IEEEComputerSocietyConferenceonCom-puterVisionandPatternRecognition,2010:2241-2248.[30]FELZENSZWALBPF,GIRSHICKRB,MCALLESTER

D,etal.Objectdetectionwithdiscriminativelytrainedpart-basedmodels[J].IEEETransactionsonPatternAnaly-sisandMachineIntelligence,2009,32(9):1627-15.[31]GIRSHICKRB,FELZENSZWALBPF,MCALLESTER

DA.Objectdetectionwithgrammarmodels[C]//AdvancesinNeuralInformationProcessingSystems,2011:442-450.[32]GIRSHICKR,DONAHUEJ,DARRELLT,etal.Rich

featurehierarchiesforaccurateobjectdetectionandsemanticsegmentation[C]//ProceedingsoftheIEEECon-ferenceonComputerVisionandPatternRecognition,2014:580-587.

[33]VANDESANDEKEA,UIJLINGSJRR,GEVERS

T,etal.Segmentationasselectivesearchforobjectrec-ognition[C]//2011InternationalConferenceonComputerVision,2011:1879-1886.

[34]HEK,ZHANGX,RENS,etal.Spatialpyramidpool-ingindeepconvolutionalnetworksforvisualrecogni-tion[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2015,37(9):1904-1916.

[35]GIRSHICKR.FastR-CNN[C]//ProceedingsoftheIEEE

InternationalConferenceonComputerVision,2015:1440-1448.

[36]RENS,HEK,GIRSHICKR,etal.FasterR-CNN:towards

real-timeobjectdetectionwithregionproposalnet-works[C]//AdvancesinNeuralInformationProcessingSystems,2015:91-99.

[37]DAIJ,LIY,HEK,etal.R-FCN:Objectdetectionvia

region-basedfullyconvolutionalnetworks[C]//Advances

inNeuralInformationProcessingSystems,2016:379-387.

[38]HEK,GKIOXARIG,DOLLÁRP,etal.MaskR-CNN[C]//

ProceedingsoftheIEEEInternationalConferenceonComputerVision,2017:2961-2969.

[39]LINTY,DOLLÁRP,GIRSHICKR,etal.Featurepyr-amidnetworksforobjectdetection[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2017:2117-2125.

[40]REDMONJ,DIVVALAS,GIRSHICKR,etal.Youonly

lookonce:unified,real-timeobjectdetection[C]//Proceed-ingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2016:779-788.

[41]REDMONJ,FARHADIA.YOLO9000:better,faster,stron-ger[C]//ProceedingsoftheIEEEConferenceonCom-puterVisionandPatternRecognition,2017:7263-7271.[42]REDMONJ,FARHADIA.Yolov3:anincrementalimprove-ment[J].arXiv:1804.02767,2018.

[43]LIUW,ANGUELOVD,ERHAND,etal.Ssd:single

shotmultiboxdetector[C]//EuropeanConferenceonCom-puterVision.Cham:Springer,2016:21-37.

[44]LINTY,GOYALP,GIRSHICKR,etal.Focallossfor

denseobjectdetection[C]//ProceedingsoftheIEEEInter-nationalConferenceonComputerVision,2017:2980-2988.[45]HUANGJ,RATHODV,SUNC,etal.Speed/accuracy

trade-offsformodernconvolutionalobjectdetectors[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2017:7310-7311.

[46]FUCY,LIUW,RANGAA,etal.DSSD:deconvolu-tionalsingleshotdetector[J].arXiv:1701.06659,2017.[47]HEK,ZHANGX,RENS,etal.Deepresiduallearning

forimagerecognition[C]//ProceedingsoftheIEEECon-ferenceonComputerVisionandPatternRecognition,2016:770-778.

[48]SIMONYANK,ZISSERMANA.Verydeepconvolutional

networksforlarge-scaleimagerecognition[J].arXiv:1409.1556,2014.

[49]SINGHB,NAJIBIM,DAVISLS.SNIPER:efficient

multi-scaletraining[C]//AdvancesinNeuralInformationProcessingSystems,2018:9310-9320.

[50]CAOG,XIEX,YANGW,etal.Feature-fusedSSD:

fastdetectionforsmallobjects[C]//NinthInternationalConferenceonGraphicandImageProcessing,2018.[51]LIUS,QIL,QINH,etal.Pathaggregationnetwork

forinstancesegmentation[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecogni-tion,2018:8759-8768.

[52]SHRIVASTAVAA,SUKTHANKARR,MALIKJ,etal.

Beyondskipconnections:TOP-downmodulationforobjectdetection[J].arXiv:1612.06851,2016.

[53]GHIASIG,LINTY,LEQV.NAS-FPN:learningscal-ablefeaturepyramidarchitectureforobjectdetection[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2019:7036-7045.

202157247

[]XUH,YAOL,ZHANGW,etal.Auto-FPN:automatic

networkarchitectureadaptationforobjectdetectionbeyondclassification[C]//ProceedingsoftheIEEEInternationalConferenceonComputerVision,2019:69-6658.[55]GUOC,FANB,ZHANGQ,etal.AugFPN:improving

multi-scalefeaturelearningforobjectdetection[J].arXiv:1912.05384,2019.

[56]RASHWANA,KALRAA,POUPARTP.Matrixnets:a

newdeeparchitectureforobjectdetection[C]//Proceed-ingsoftheIEEEInternationalConferenceonComputerVisionWorkshops,2019.

[57]HOWARDAG,ZHUM,CHENB,etal.MobileNets:

efficientconvolutionalneuralnetworksformobilevisionapplications[J].arXiv:1704.04861,2017.

[58]SANDLERM,HOWARDA,ZHUM,etal.MobileNetV2:

invertedresidualsandlinearbottlenecks[C]//Proceed-ingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2018:4510-4520.

[59]HOWARDA,SANDLERM,CHUG,etal.Searchingfor

MobileNetV3[C]//2019IEEE/CVFInternationalConfer-enceonComputerVision,2019.

[60]ZHANGX,ZHOUX,LINM,etal.ShuffleNet:anex-tremelyefficientconvolutionalneuralnetworkformobiledevices[C]//2018IEEE/CVFConferenceonComputerVisionandPatternRecognition,2018.

[61]MAN,ZHANGX,ZHENGHT,etal.ShuffleNetV2:

practicalguidelinesforefficientcnnarchitecturedesign[C]//European

Conference

on

Computer

Vision.Cham:

Springer,2018.

[62]IANDOLAFN,HANS,MOSKEWICZMW,etal.

SqueezeNet:AlexNet-levelaccuracywith50xfewerparam-etersand<0.5MBmodelsize[J].arXiv:1602.07360,2016.[63]WANGCY,LIAOHYM,YEHIH,etal.CSPNet:a

newbackbonethatcanenhancelearningcapabilityofCNN[J].arXiv:1911.11929,2019.

[]WONGA,FAMUORIM,SHAFIEEMJ,etal.YOLO

Nano:ahighlycompactyouonlylookonceconvolu-tionalneuralnetworkforobjectdetection[J].arXiv:1910.01271,2019.

[65]QINZ,LIZ,ZHANGZ,etal.ThunderNet:towardsreal-timegenericobjectdetection[J].arXiv:1903.11752,2019.[66]CHENC,LIUM,MENGX,etal.RefineDetLite:alight-weightone-stageobjectdetectionframeworkforCPU-onlydevices[C]//2020IEEE/CVFConferenceonCom-puterVisionandPatternRecognitionWorkshops(CVPRW),2020.

[67]HUP,RAMANAND.Findingtinyfaces[C]//Proceedings

oftheIEEEConferenceonComputerVisionandPat-ternRecognition,2017:951-959.

[68]FOOKESC,LINF,ChandranV,etal.Evaluationofimage

resolutionandsuper-resolutiononfacerecognitionper-formance[J].JournalofVisualCommunicationandImageRepresentation,2012,23(1):75-93.

482021572[69]HARISM,SHAKHNAROVICHG,UKITAN.Task-driven

superresolution:objectdetectioninlow-resolutionimages[J].arXiv:1803.11316,2018.

[70]DONGC,LOYCC,HEK,etal.Learningadeepcon-volutionalnetworkforimagesuper-resolution[C]//Euro-peanConferenceonComputerVision.Cham:Springer,2014:184-199.

[71]KRISHNAH,JAWAHARCV.Improvingsmallobject

detection[C]//20174thIAPRAsianConferenceonPat-ternRecognition(ACPR),2017:340-345.

[72]LEDIGC,THEISL,HUSZÁRF,etal.Photo-realistic

singleimagesuper-resolutionusingagenerativeadver-sarialnetwork[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2017:4681-4690.

[73]GOODFELLOWI,POUGET-ABADIEJ,MIRZAM,etal.

Generativeadversarialnets[C]//AdvancesinNeuralInfor-mationProcessingSystems,2014:2672-2680.

[74]LIJ,LIANGX,WEIY,etal.Perceptualgenerativeadver-sarialnetworksforsmallobjectdetection[C]//Proceed-ingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2017:1222-1230.

[75]BAIY,ZHANGY,DINGM,etal.SOD-MTGAN:small

objectdetectionviamulti-taskgenerativeadversarialnetwork[C]//ProceedingsoftheEuropeanConferenceonComputerVision(ECCV),2018:206-221.

[76]NOHJ,BAEW,LEEW,etal.Bettertofollow,follow

tobebetter:towardsprecisesupervisionoffeaturesuper-resolutionforsmallobjectdetection[C]//ProceedingsoftheIEEEInternationalConferenceonComputerVision,2019:9725-9734.

[77]TAKEKIA,TRINHTT,YOSHIHASHIR,etal.Com-biningdeepfeaturesforobjectdetectionatvariousscales:findingsmallbirdsinlandscapeimages[J].IPSJTransactionsonComputerVisionandApplications,2016,8(1):1-7.

[78]RENY,ZHUC,XIAOS.Smallobjectdetectioninopti-calremotesensingimagesviamodifiedfasterR-CNN[J].AppliedSciences,2018,8(5):813.

[79]ZHANGZ,SHENW,QIAOS,etal.Robustfacedetec-tionvialearningsmallfacesonhardimages[J].arXiv:1811.11662,2018.

[80]SHRIVASTAVAA,GUPTAA,GIRSHICKR.Training

region-basedobjectdetectorswithonlinehardexamplemining[C]//ProceedingsoftheIEEEConferenceonCom-puterVisionandPatternRecognition,2016:761-769.[81]LUOS,LIX,ZHUR,etal.SFA:smallfacesattention

facedetector[J].IEEEAccess,2019,7:171609-171620.[82]CHENC,LIUMY,TUZELO,etal.R-CNNforsmall

objectdetection[C]//AsianConferenceonComputerVision.Cham:Springer,2016:214-230.

[83]EGGERTC,BREHMS,WINSCHELA,etal.Acloser

look:smallobjectdetectioninfasterR-CNN[C]//2017IEEEInternationalConferenceonMultimediaandExpo(ICME),2017:421-426.

[84]EGGERTC,ZECHAD,BREHMS,etal.Improving

smallobjectproposalsforcompanylogodetection[C]//Proceedingsofthe2017ACMonInternationalConfer-enceonMultimediaRetrieval,2017:167-174.

[85]CAIZ,VASCONCELOSN.CascadeR-CNN:delvinginto

highqualityobjectdetection[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecogni-tion,2018:61-6162.

[86]ZOPHB,CUBUKED,GHIASIG,etal.Learningdata

augmentationstrategiesforobjectdetection[J].arXiv:1906.11172,2019.

[87]KISANTALM,WOJNAZ,MURAWSKIJ,etal.Augmen-tationforsmallobjectdetection[J].arXiv:1902.07296,2019.[88]MAJ,PANQ,HUJ,etal.Smallobjectdetectionwith

randomdecisionforests[C]//2017IEEEInternationalCon-ferenceonUnmannedSystems(ICUS),2017:566-571.[]LIMJS,ASTRIDM,YOONHJ,etal.Smallobjectdetec-tionusingcontextandattention[J].arXiv:1912.06319,2019.[90]XIY,ZHENGJ,HEX,etal.Beyondcontext:exploring

semanticsimilarityforsmallobjectdetectionincrowdedscenes[J].PatternRecognitionLetters,2020,137:53-60.[91]吴天舒,张志佳,刘云鹏,等.基于改进SSD的轻量化小目

标检测算法[J].红外与激光工程,2018,47(7):47-53.[92]温捷文,战荫伟,李楚宏,等.一种加强SSD小目标检测能

力的Atrous滤波器设计[J].计算机应用研究,2019,36(3):861-865.

[93]段秉环,文鹏程,.基于改进PVANet的实时小目标检

测方法[J].计算机应用研究,2020,37(2):593-597.[94]黄继鹏,史颖欢,高阳.面向小目标的多尺度Faster-RCNN检测算法[J].计算机研究与发展,2019,56(2):319-327.

[95]XINGC,LIANGX,BAOZ.Asmallobjectdetection

solutionbyusingsuper-resolutionrecovery[C]//2019IEEE7thInternationalConferenceonComputerScienceandNetworkTechnology(ICCSNT),2019:313-316.

[96]ZHAOM,CHENGL,YANGX,etal.TBC-Net:areal-timedetectorforinfraredsmalltargetdetectionusingsemanticconstraint[J].arXiv:2001.05852,2019.

[97]陈幻杰,王琦琦,杨国威,等.多尺度卷积特征融合的

SSD目标检测算法[J].计算机科学与探索,2019,13(6):1049-1061.

[98]魏玮,蒲玮,刘依.改进YOLOv3在航拍目标检测中的应

用[J].计算机工程与应用,2020,56(7):17-23.

[99]孙萍,胡旭东,张永军.结合注意力机制的深度学习图像

目标检测[J].计算机工程与应用,2019,55(17):180-184.[100]王冬丽,廖春江,牟金震,等.基于特征融合的SSD视觉

小目标检测[J].计算机工程与应用,2020,56(16):31-36.[101]HUJ,SHENL,SUNG.Squeeze-and-excitationnet-works[C]//2018IEEE/CVFConferenceonComputerVisionandPatternRecognition(CVPR),2018.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.com 版权所有 湘ICP备2023021991号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务