摘要:目前,我国是科学技术快速发展的新时期,深度学习理论在计算机视觉中的应用日趋广泛, 在目标分类、检测领域取得了令人瞩目的成果, 但是深度学习理论在目标跟踪领域的早期应用中, 由于存在跟踪时只有目标为正样本, 缺乏数据支持, 对位置信息依赖程度高等问题, 因而应用效果并不理想, 传统方法仍占据主流地位.近年来, 随着技术的不断发展, 深度学习在目标跟踪方向取得了长足的进步.本文首先介绍了目标跟踪技术的基本概念和主要方法, 然后针对深度学习在目标跟踪领域的发展现状, 从基于深度特征的目标跟踪和基于深度网络的目标跟踪两方面重点阐述了深度学习在该领域的应用方法, 并对近期较为流行的基于孪生网络的目标跟踪进行了详细介绍.最后对近年来深度学习在目标跟踪领域取得的成果, 以及未来的发展方向作了总结和展望.
关键词:计算机视觉; 目标跟踪; 深度学习; 深度特征; 孪生网络 引言
由于火灾的突发性、频发性和危害性,人们一直在寻找更加及时有效的火灾检测方法。传统的火灾探测系统存在探测范围有限,误报率高,安装密度大,可拓展性不强,智能化程度较低等缺点。近年来,随着视频监控的普及、视频图像处理技术和计算机视觉技术的发展,视频火焰识别一直是火灾检测领域的热点。传统的视频火焰检测算法大多关注检测火焰的存在性,而不能对火焰的燃烧状态进行持续有效的跟踪,使用常见的目标跟踪算法,如kalman滤波器算法对火焰目标进行跟踪,其对于火焰这种原地闪动且存在被遮挡可能的目标跟踪效果欠佳。大多数早期的火焰检测算法都是通过先人工提取火焰的特征,再将多种特征进行融合识别火焰。人工提取的火焰特征主要分为静态与动态两类,早期的火焰识别算法通过提取典型的静态特征如圆形度序列,面积序列,面积序列频谱,强度序列等进行融合判别火焰,动态特征方面,火焰的尖角运动方向、闪烁特征与边缘一致性特征等能有效区分疑似火焰的干扰物。将火焰的尖角数目与火焰高度的频谱变化等静态特征与动态特征相结合进行火焰识别,也成为一个研究热点。但是,人工提取特征有容错性差,鲁棒性低的缺点。 1深度学习概述
1943年,美国心理学家McCulloch和著名数理逻辑学家Pitts在分析、总结神经元基本特性的基础上,首次构建了神经网络和数学模型,正式开启了人工神经网络研究的新时代。1958年,在McCulloch和Pitts模型的基础上,Rosenblatt提出感知机概念,该模型首次将神经网络工程付诸工程实现。1986年,以
Rumelhart和McClelland为首的科学家提出一种按照误差反向传播算法训练的多层前馈神经网络,又称BP(BackPropagation)神经网络,已成为当前应用最为广泛的神经模型。深度学习是人工神经网络的分支,其概念同样源于人工神经网络的研究。
2目标跟踪 2.1背景差分法
背景差分法,又名背景减除法,基于深度学习的视频目标跟踪的检测是对比图像序列中当前图片和背景模型图片。这个方法是在视频上建立背景图像的像素模型,设定阈值,对比每帧图像和背景图像,将两幅图像像素差别大于阈值的像素点看作是基于深度学习的视频目标跟踪,像素差别小于阈值的像素点看作是背景。该方法需要考虑背景模型的表示方法,初始化以及背景模型更新的方法等。
2.2基于SAE的跟踪算法
DLT方法首次将深度模型成功应用到视觉跟踪领域中,并首次提出离线预训练与在线微调相结合的思路.首先在离线的状态下使用栈式降噪自编码
(StackedDenoisingAutoencoders,SDAE)方法学习图像通用特征表示,完成无监督预训练阶段,利用SDAE的编码部分构造判别神经网络,并使用该神经网络训练所需的特征提取器和分类器.跟踪过程结合粒子滤波法,选出置信度最高的为最终预测目标.在更新策略上,采用阈值判断是否更新整个网络.DLT具有高跟踪准确度和低计算复杂度的优点,但是DLT本身也存在一些不足.首先,用于离线训练的数据图像分辨率低,很难提取到足够强的表观特征;其次,由于自编码获得的训练图像属于重构图像,且数据集的不同视频序列包含各类物体对象,会对实际跟踪过程的分类造成干扰和误判.结合深度学习技术和在线AdaBoost框架的跟踪算法,继承DLT的SDAE网络结构,并用于学习多层图像表观特征.在包含4个隐含层的SDAE网络中,利用在线AdaBoosting框架形成一个高精准率和低错误率的强分类器.该算法得到显著的实验成果,包括:第一,实现深度学习网络在不同层能够自动学习目标的有效通用特征;第二,Boosting框架可在多个特征层中自动识别最适用于外观建模的特征层.
2.3基于深度网络的目标跟踪
深度特征加上相关滤波的方法在速度和精度上在一定程度上都有所保证, 但是考虑到深度网络强大的拟合能力与适应能力, 人们开始了对于完整的深度网络在目标跟踪上的研究. 但是在目标跟踪领域, 深度学习仍然面对着很大的挑战. 基于深度网络的目标跟踪不得不面对两个至关重要的难题. (1) 目标跟踪的样本数量严重不足, 在目标跟踪中, 往往只有初始帧的目标框, 这对需要基于大量数据才能达到优异效果的深度学习来说是一个很严重挑战. (2) 在注重实时性的目标跟踪领域, 具有比较理想效果的网络往往需要较大的计算量, 即便在GPU环境下也很难做到实时的效果.针对这些问题, 一些基于深度网络的目标跟踪方法陆续被提出.在基于深度学习的目标跟踪中, 在处理单目标跟踪问题的时候, 不需要太大的网络, 在卷积网络中, 一般底层包含更多的空间信息, 而高层包含更多的语义信息, 与目标检测不同, 在网络结构越深的情况下, 语义信息越来越抽象, 但同时会其所包含的空间信息也将被稀释, 不利于获取目标跟踪中最需要用到的物体的空间信息. 同样, 基于深度网络的目标跟踪本质上仍然是判别式模型, 所以目标跟踪只需要区分相应的两个类别, 即前景跟后景, 所以并不需要太大的网络. 而在整个视频中, 所需要追踪的目标也同样较小, 其输入尺寸自然也小, 综上并基于网络速度考虑, 目标跟踪所使用的深度网络不会太深太大. 2.4运动模型
在视频序列中针对目标位置进行预测的时候,在目标周围产生一定数量的候选区。跟踪算法的用处是在这些候选区中寻到一个最优解。运动模型在此过程中起到核心作用,即按特定规则产生候选位置样本。相邻两帧之间目标的位置不能相距过远,运动模型就是根据这个基本约束以较高的效率提供候选区。目前运动模型主要分为两种:(1)滑动窗口(SlideWindow)在目标周围正方形或者圆形区域内实行穷举搜索的采样策略,也叫密集采样。这种方法将搜索区域内所有可能的潜在位置均予以考虑,缺点是计算代价较大。(2)粒子滤波(ParticleFilter)粒子滤波是由卡尔曼滤波发展而来,先验概率密度以加权粒子采样样本来近似表示。每个粒子的权值代表了该样本的重要程度。每次跟踪结果确定后,会依据不同粒子的重要程度进行重采样。粒子滤波方法具备较高的计算效率,在目前的跟
踪算法中应用较多。 结语
随着深度学习技术在计算机视觉领域的不断发展,深度学习以其强大的模型学习能力取得了越来越显著的效果. 但是, 由于深度学习对数据依赖性强以及目标跟踪中数据量不足的特点, 深度学习在目标跟踪领域还有很长的一段路要走. 但是, 从近几年的VOT竞赛结果中可以看出, 随着跟踪技术的不断发展, 基于数据驱动的学习方式在跟踪领域也必将占据着越来越重要的作用。 参考文献
[1]戴凤智,魏宝昌,欧阳育星,金霞.基于深度学习的视频跟踪研究进展综述[J/OL].计算机工程与应用:1-14[2019-04-03].
[2]吴润泽.基于学习、检测的目标稳定跟踪[D].中国科学院大学(中国科学院光电技术研究所),2018.
[3]周辉.基于深度学习的多目标跟踪算法研究[D].电子科技大学,2018.
作者简介:葛祥友(1978-),男,山东临沂人,副教授,硕士,研究方向:信息隐藏、图像识别技术;宋伟奇(1977-),男,柳州人,副教授,硕士,研究方面:计算机应用。
基金项目:广西中青年教师基础能力提升课题:复杂环境下视频目标鲁棒跟踪方法研究(编号:2019KY1254)。
因篇幅问题不能全部显示,请点此查看更多更全内容