视觉追踪(计算机领域的概念)
VLoG
次浏览
更新时间:2023-05-23
视觉追踪
计算机领域的概念
视觉跟踪是指对图像序列中的运动目标进行检测、提取、识别和跟踪,获得运动目标的运动参数,如位置、速度、加速度和运动轨迹等,从而进行下一步的处理与分析,实现对运动目标的行为理解,以完成更高一级的检测任务。
基本信息
中文名 | 视觉追踪 |
外文名 | Visual tracking |
运用领域 | 计算机 |
技术支持 | 依赖高清晰度摄像机和不可见红外光源 |
研究意义
视觉是人类认知世界的重要途径之一,人类获取外部信息的80%来自视觉系统。计算视觉就是在了解人类视觉基础上,用成像系统代替人类视觉器官,用计算级代替人脑完成对输入图像的处理与理解。同时,随着信息技术与智能科学的发展,计算机视觉是人工智能领域热门学科之一和物联网感知层重要技术之一。
视觉跟踪技术作为计算机视觉领域的热门课题之一,是对连续的图像序列进行运动目标检测、提取特征、分类识别、跟踪滤波、行为识别,以获得目标准确的运动信息参数(如位置、速度等),并对其进行相应的处理分析,实现对目标的行为理解。
国外在视频目标检测与跟踪领域的研究起步较早,美国军方及美国自然科学基金委员会都非常关注复杂环境下目标的检测、跟踪与识别算法研究与应用。1991年,美国国防高级研究项目署DARPA就资助卡内梅隆大学进行视觉信息在无人机中的应用研究。1997年,DARPA再次邀请多所美国高校参与了视频监控系统重大项目VSAM(videosurveillance and monitoring)的研发工作。美国国防部DAPRA和JSG&CC联合发起成立了自动识别工作组ATRWG。之后,国外知名大学与研究机构也对视频目标的检测与跟踪算法进行深入研究,J.Davis等人提出了一种适用于人体检测的背景相减算法,它首先采用传统帧相减算法得到感兴趣区域,之后通过梯度信息在感兴趣区域中寻找目标轮廓,通过目标轮廓确定目标位置,S.Huwer等人深入研究了背景模型问题,提出了一种自适应的背景模型,该模型可以很好的解决光照变化等问题。
1999年后,国内一些高校和科研机构也开始视频目标检测与跟踪方面的研究。中科院自动化所的模式识别国家重点实验室图像和视频分析研究组研发的交通行为事件分析系统;2001年,清华大学开发的适用于野外环境的视觉侦查系统。
分类
(1)单摄像头与多摄像头
在视频跟踪的过程中,根据使用的摄像头的数目,可将目标跟踪方法分为单摄像头跟踪方法(Monocular camera)与多摄像头跟踪方法(Multiple cameras)。由于单摄像头视野有限,大范围场景下的目标跟踪需要使用多摄像头系统。基于多个摄像头的跟踪方法有利于解决遮挡问题,场景混乱、环境光照突变情况下的目标跟踪问题。
(2)摄像头静止与摄像头运动
在实际的目标跟踪系统中,摄像头可以是固定在某个位置,不发生变化,也可以是运动,不固定的。例如,对于大多数的视频监视系统而言,都是在摄像机静止状态下,对特定关注区域进目标的识别跟踪;而在视觉导航等的应用系统中,摄像头往往随着无人汽车、无人机等载体进行运动。
(3)单目标跟踪与多目标跟踪
根据跟踪目标的数量可以将跟踪算法分为单目标跟踪与多目标跟踪。相比单目标跟踪而言,多目标跟踪问题更加复杂和困难。多目标跟踪问题需要考虑视频序列中多个独立目标的位置、大小等数据,多个目标各自外观的变化、不同的运动方式、动态光照的影响以及多个目标之间相互遮挡、合并与分离等情况均是多目标跟踪问题中的难点。
(4)刚体跟踪与非刚体跟踪
根据被跟踪目标的结构属性,可将跟踪目标分为刚体与非刚体。所谓刚体,是指具备刚性结构、不易形变的物体,例如车辆等目标;非刚体通常指外形容易变形的物体,例如布料表面、衣服表面等。针对刚体目标的跟踪一直得到广泛深入的研究,而非刚体目标的跟踪,由于目标发生变形以及出现自身遮挡等现象,不能直接应用基于刚体目标的跟踪算法针对非刚体目标的跟踪一直是非常困难并且具有挑战性的课题。
(5)可见光与红外图像的目标跟踪
根据传感器成像的类型不同,目标跟踪还可以分为基于可见光图像的跟踪和基于红外图像的跟踪。目标的红外图像和目标的可见光图像不同,它不是人眼所能看到的可见光图像,而是目标表面温度分布的图像。红外图像属于被动式成像,无需各种光源照明,全天候工作,安全隐敝,使用方便;红外光较之可见光的波长长得多,透烟雾性能较好,可在夜间工作。可见光图像具有光谱信息丰富、分辨率高、动态范围大等优点,但在夜间和低能见度等条件下,成像效果差。
典型算法
(1)基于区域的跟踪算法
视觉追踪
起初,基于区域的跟踪算法中所用到的目标模板是固定的,如 Lucas 等人提出 Lucas-Kanade 方法,该方法利用灰度图像的空间梯度信息寻找最佳匹配区域,确定目标位置。之后,更多的学者针对基于区域方法的缺点进行了不同的改进,如:Jepson 等人提出的基于纹理特征的自适应目标外观模型,该模型可以较好的解决目标遮挡的问题,且在跟踪的过程中采用在线 EM 算法对目标模型进行更新;Comaniciu 等人提出了基于核函数的概率密度估计的视频目标跟踪算法,该方法采用核直方图表示目标,通过 Bhattacharya 系数计算目标模板与候选区域的相似度,通过均值漂移(MeanShift)算法快速定位目标位置。
基于区域的目标跟踪算法采用了目标的全局信息,比如灰度信息、纹理特征等,因此具有较高的可信度,即使目标发生较小的形变也不影响跟踪效果,但是当目标发生较严重的遮挡时,很容易造成跟踪失败。
(2)基于特征的跟踪方法
基于特征的目标跟踪算法通常是利用目标的一些显着特征表示目标,并通过特征匹配在图像序列中跟踪目标。该类算法不考虑目标的整体特征,因此当目标被部分遮挡时,仍然可以利用另一部分可见特征完成跟踪任务,但是该算法不能有效处理全遮挡、重叠等问题。
基于特征的跟踪方法一般包括特征提取和特征匹配两个过程:
a) 特征提取
所谓特征提取是指从目标所在图像区域中提取合适的描绘性特征。这些特征不仅应该较好地区分目标和背景,而且应对目标尺度伸缩、目标形状变化、目标遮挡等情况具有鲁棒性。常用的目标特征包括颜色特征、灰度特征、纹理特征、轮廓、光流特征、角点特征等。D.G. Lowe 提出 SIFT(Scale Invariant Feature Transform)算法是图像特征中效果较好的一种方法,该特征对旋转、尺度缩放、亮度变化具有不变性,对视角变化、仿射变换、噪声也具有一定的稳定性。
b) 特征匹配
特征匹配就是采用一定的方式计算衡量候选区域与目标区域的相似性,并根据相似性确定目标位置、实现目标跟踪。在计算机视觉领域中,常用的相似性度量准则包括加权距离、Bhattacharyya 系数、欧式距离、Hausdorff 距离等。其中,Bhattacharyya 系数和欧式距离最为常用。
Tissainayagam 等人提出了一种基于点特征的目标跟踪算法。该算法首先在多个尺度空间中寻找局部曲率最大的角点作为关键点,然后利用提出的MHT-IMM 算法跟踪这些关键点。这种跟踪算法适用于具有简单几何形状的目标,对于难以提取稳定角点的复杂目标,则跟踪效果较差。
Zhu 等人提出的基于边缘特征的目标跟踪算法,首先将参考图像划分为多个子区域,并将每个子区域的边缘点均值作为目标的特征点,然后利用类似光流的方法进行特征点匹配,从而实现目标跟踪。
(3)基于轮廓的跟踪方法
基于轮廓的目标跟踪方法需要在视频第一帧中指定目标轮廓的位置,之后由微分方程递归求解,直到轮廓收敛到能量函数的局部极小值,其中,能量函数通常与图像特征和轮廓光滑度有关。与基于区域的跟踪方法相比,基于轮廓的跟踪方法的计算复杂度小,对目标的部分遮挡鲁棒。但这种方法在跟踪开始时需要初始化目标轮廓,因此对初始位置比较敏感,跟踪精度也被限制在轮廓级。
Kass 等人于 1987 年提出的活动轮廓模型(Active Contour Models,Snake),通过包括图像力、内部力和外部约束力在内的三种力的共同作用控制轮廓的运动。内部力主要对轮廓进行局部的光滑性约束,图像力则将曲线推向图像的边缘,而外部力可以由用户指定,主要使轮廓向期望的局部极小值运动,。
Paragios 等人提出了一种用水平集方法表示目标轮廓的目标检测与跟踪算法,该方法首先通过帧差法得到目标边缘,然后通过概率边缘检测算子得到目标的运动边缘,通过将目标轮廓向目标运动边缘演化实现目标跟踪。
(4)基于模型的跟踪方法
在实际应用中,我们需要跟踪的往往是一些特定的我们事先具有认识的目标,因此,基于模型的跟踪方法首先根据自己的先验知识离线的建立该目标的 3D 或2D 几何模型,然后,通过匹配待选区域模型与目标模型实现目标跟踪,进而在跟踪过程中,根据场景中图像的特征,确定运动目标的各个尺寸参数、姿态参数以及运动参数。
Shu Wang 等人提出一种基于超像素的跟踪方法,该方法在超像素基础上建立目标的外观模板,之后通过计算目标和背景的置信图确定目标的位置,在这个过程中,该方法不断通过分割和颜色聚类防止目标的模板漂移。
(5)基于检测的跟踪算法
基于检测的跟踪算法越来越流行。一般情况下,基于检测的跟踪算法都采用一点学习方式产生特定目标的检测器,即只用第一帧中人工标记的样本信息训练检测器。这类算法将跟踪问题简化为简单的将背景和目标分离的分类问题,因此这类算法的速度快且效果理想。这类算法为了适应目标外表的变化,一般都会采用在线学习方式进行自更新,即根据自身的跟踪结果对检测器进行更新。
面临的挑战
视频目标跟踪技术理论研究虽然已经取得了很大的发展,并且已经有部分成果进入实用化阶段,但是当前仍然面临着巨大的挑战,还有许多问题有待进一步解决,对此本节从以下几个方面进行阐述:
1、跟踪目标的多样性
根据应用需求的不同,视频跟踪的对象多种多样,从而导致跟踪算法的设计复杂多样。视频跟踪的对象可能是不同外观的行人、或人的脸部、眼部等局部区域,也可能是具有不同形状、颜色的车辆或车辆的局部区域等等。针对不同的跟踪目标,需要建立不同的描述目标外观的特征模型。例如,在跟踪车辆这类刚体目标时所采用的描述目标的特征模型,往往不能够直接用于跟踪例如衣物等变形表面这类非刚体目标;其次,通常的跟踪对象的运动具有不确定性,例如车辆的行驶过程,可能是匀速运动,也可能是加、减速运动,或是直线运动,或是转向等等,针对不同的跟踪对象要设计合适的运动预测模型;另外,在目标运动过程中,目标运动本身会造成跟踪对象外观特征发生变化,例如在头部跟踪过程中,头部的旋转会造成头部区域的颜色分布发生变化,此时会导致目标有些特征地消失,新特征出现;当然,还有跟踪目标之间可能存在遮挡现象,在单一目标跟踪中,目标本身可能会发生自遮挡情况,例如行人的部分区域,在多目标中,目标之间也可能发生相互遮挡,这些情况都增加了跟踪难度。以上描述的跟踪目标的多样性都需要对跟踪算法进行合理的设计和建模描述,从而有效应对目标的变化。
2、跟踪环境的复杂性
实际应用当中,室内外环境要素的变化对于目标跟踪算法有很大的影响。室内外的光照变化,能够影响到可见光图像数据,进而影响跟踪目标的外观特征。例如在室内黑暗的环境当中,开关灯会严重影响目标与周围环境的对比度;室外环境光照的变化、雨雪天气等的影响,也会对跟踪目标造成严重干扰。此外,实际的环境当中,不断变化的背景要素也会对跟踪目标造成影响。例如,在室外密集的人流或车流当中,周围不断运动的人或车会对指定的目标行人或车辆造成严重的影响,道路两旁的树木、建筑等同样会对跟踪目标造成干扰。还有捕获数据的摄像头设备,在室内外的环境中都可能受到干扰,例如有些场景会发生摄像头抖动问题:如在小区监控中,由于周围车辆的行使、刮风等因素都可能会导致摄像头晃动、移位等;摄像头出现视野模糊现象:在长期在恶劣情况下使用,导致摄像头老化,焦距产生漂移,或者摄像头落上大量灰尘等情况下,都可能导致视野模糊的问题。为此,如何在种种复杂干扰的条件下准确可靠地提取目标,是衡量跟踪算法性能的一项重要指标。
3、应用需求的多样性
视频目标跟踪算法是诸多视觉应用的基础,而各类应用对目标跟踪算法各类性能指标的要求不尽相同。跟踪算法的主要指标包括跟踪的准确性、稳定性、抗干扰性以及计算的实时性等。对于视频监控系统等应用,需要算法能够在各种复杂的外界环境条件下(如地铁站、火车站等公共交通系统中),准确地分析目标行为,甚至能准确报警并尽可能减少虚警误警,这类应用对跟踪算法的抗干扰性以及计算实时性要求很高;对于网络智能交互等应用,例如网络视频会议等,需要跟踪算法准确提取目标的全部区域,对算法跟踪的准确性有很高的要求,而由于网络传输可能出现的延时等情况,算法的实时性可以有所折中。各类视频应用系统通常来说涉及的方面比较多且复杂,对于目标跟踪算法需要在跟踪精度、运行速度以及其他性能指标之间进行权衡,是跟踪算法研究需要考虑的一个重要内容。许多跟踪算法复杂度高、跟踪精度受参数设置的影响严重,适应性和抗干扰性有局限性,如何将视频跟踪算法在实际环境中可靠稳定运行,需要进一步的研究。
如今,虽然已提出了多种视频目标跟踪算法,但是大多数算法一般只适用于一些特定的目标、特定的环境或者具有其它一些应用约束条件,并且存在着这样或那样的不足有待进一步优化和完善,而一些更为优秀的无环境约束下的视频目标跟踪算法也有待去进一步研究开发。
含义二