文章转载自微信公众号智绘科服,来源:《测绘通报》2022年第5期,审图号:GS京(2022)0028号,初审:纪银晓,复审:宋启凡,终审:金君,版权归原作者及刊载媒体所有。韩世静1,2, 苗书锋3, 郝向阳1, 陈润泽1
1. 信息工程大学地理空间信息学院, 河南 郑州 450001;2. 南宁师范大学自然资源与测绘学院, 广西 南宁 530001;3. 武汉科岛地理信息工程有限公司, 湖北 武汉 430081基金项目:校科研团队发展基金(f4211)
关键词:监控视频, 地理信息, 融合, 映射
引文格式:韩世静, 苗书锋, 郝向阳, 等. 监控视频与地理信息融合技术发展综述[J]. 测绘通报,2022(5):1-6. DOI: 10.13474/j.cnki.11-2246.2022.0132.摘要 :监控视频在智慧城市、平安城市的安防、管理中发挥着重要作用。虽然视频数据具有实时、直观、丰富的特点,但与地理信息的耦合分析程度不高,无法有效利用视频本身的空间信息。同时,地理信息实时性差、更新慢,无法反映动态变化的场景。为了达到更好的效果,国内外很多学者、行业人员综合两者的优势,对监控视频与地理信息的融合开展研究。本文介绍了监控视频与地理信息融合的关键技术,分析了两者融合的研究现状及应用领域,最后结合遇到的瓶颈和困难,指出了今后可能的发展趋势。
智慧城市是数字城市与物理城市的融合[1]。随着智慧城市的推进、平安城市项目的开展,智慧园区、智慧公安、智慧城管等应用逐渐增多。目前,学术界和政府管理部门面临着亟待解决的问题,即如何智能、快速感知人类活动的规律与时空特征,以及如何采取措施应对突发事件、异常行为等。监控视频在智慧城市、平安城市的安防、管理中发挥着重要作用。单相机视场有限,无法监控大范围场景,而且抗遮挡能力差,因此需要多个监控相机协同作业,实现大场景的监控。实时的监控视频为城市重点区域(目标)信息的实时、持续更新提供了丰富素材。视频数据直观、丰富,但目前的视频监控还主要以“井”字格视窗的形式展示在监控室,需要花费大量的人力进行排查,且对监控人员有较高的要求,需要对监控区域的地理场景较为熟悉,才能准确地将视频与地理场景相对应。近些年,计算机视觉算法的优化、模式识别理论的创新及人工智能技术的发展,加快了视频智能分析发展的脚步,使其成为计算机视觉领域的一个研究热点。然而,目前的研究侧重对影像本身的分析,主要解决目标检测与跟踪的精度问题[2],与地理信息的耦合分析程度不高,无法有效利用视频本身的空间信息。虽然视频本身无法解决“从何处看世界,如何看世界”的问题,但视频与统一地理框架的地理信息的融合不仅可以有效解决目标识别跟踪、语义理解等二维图像信息无法更深层次挖掘的问题,而且还有助于克服传统监控画面缺乏关联的应用局限性,实现整体把握监控区域的安全态势。此外,两者的融合还有助于实现目标的量测、查询、统计等,提高监控的综合管理和分析能力,拓展应用范围。本文首先介绍监控视频与地理信息融合的关键技术; 其次分析融合的研究现状; 然后指出其应用领域; 最后总结全文,给出发展方向。
视频数据不仅包含了静态的背景信息(即地理场景),还包含了地理场景中的动态目标(如车辆、行人等)。对于监控人员而言,更多关注的是监控视频中的动态目标,即前景提取,因此,需要进行目标的检测跟踪; 而对于测绘人员而言,更多关注的是静态的背景所蕴含的地理信息。视频图像空间化是实现视频图像信息向地理信息转化的桥梁。
目标检测需要解决两个问题:目标在哪里和目标是什么,即确定目标在图像或视频帧中包围框的位置、大小及类别标签。目标检测方法有两种:基于背景建模的方法和基于目标建模的方法。前者主要针对视频流,需要保持背景在一定时间内不变; 后者的应用场景较为广泛,可以是单张图像也可以是视频流,固定场景或变化场景均可。2014年,文献[3]提出了基于区域的卷积神经网络(region-based convolutional neural network, R-CNN)目标检测模型,为目标检测注入了新的活力,有助于解决传统目标检测在特征表达上泛化能力不足的问题。基于深度学习的目标检测的两阶段模型有快速的基于区域的卷积神经网络(Fast R-CNN)、更快的基于区域的卷积神经网络(Faster R-CNN)、基于掩膜区域的卷积神经网络(Mask R-CNN)。2016年,文献[4]首次提出基于回归的目标检测模型YOLO (you only look once),其具有速度快的优势。随后,YOLO v2、YOLO v3、YOLO v4和YOLO v5相继推出,YOLO系列检测方法属于单阶段模型。目标检测框的稳定性对目标的定位起着至关重要的作用,其性能的好坏也直接关系到后续跟踪算法。文献[5]采用YOLO v3进行目标检测,使用卡尔曼滤波和匈牙利匹配的多目标跟踪算法进行跟踪,通过扩张性非极大值抑制和帧间平滑策略,提升预测框的定位稳定性。视频在空间和时间上都具有相关性,文献[6]通过单次多框检测器(single shot multibox detector, SSD)与时空特征融合建立目标检测模型,有效解决了目标漏检、误检的问题,提高了准确率。目标检测框的稳定、检测准确率的提升有助于提升目标跟踪的性能。在给定的视频中确定感兴趣目标在哪里,并维持目标的ID、记录目标的运动轨迹是目标跟踪的核心任务。多相机跟踪由相机内跟踪和相机间跟踪两部分组成[7]。相机内跟踪的主流方法有粒子滤波、卡尔曼滤波、多假设跟踪、流网络框架等。相机间的跟踪可以基于网络拓扑结构[8]、目标特征表达或数据关联解决。在目标为行人、相机间拓扑关系不可知的情况下,表观信息成了匹配的重要因素,可以通过行人再识别技术[9]实现跨相机的多目标跟踪。计算机视觉领域的专家对多相机目标检测与跟踪开展了很多研究,虽然取得了较大进展,但由于光照变化、遮挡、运动模糊、目标自身的可变性、背景的复杂性等原因,给目标检测与跟踪带来了困难和挑战。
视频图像空间化根据原理不同分为两大类:基于摄影测量原理的相机成像模型定位方法和基于图像特征与地理特征匹配的坐标单应定位方法。前者需要确定相机的数学模型及模型参数,从而建立像素坐标与三维地理空间对应点的映射关系; 后者通过图像匹配建立图像间的变换参数,广泛应用于无人机导航、智能机器人、无人驾驶等领域。对于监控视频的空间定位,主要采用基于相机成像模型的定位方法。市面上大部分监控相机为非线性相机模型。相机模型参数包括内部参数(内参)和外部参数(外参)。内参与相机自身有关,包括相机焦距和像主点坐标; 外参反映相机的位置和姿态,包括相机在世界坐标系的三维坐标、相机坐标系与世界坐标系的3个旋转角。传统的相机内参标定主要有直接线性变换、基于径向一致性约束(radial alignment constraint, RAC)的两步标定法和张正友标定法。其中,张正友标定法材料简易,标定速度快,目前被广泛使用。近些年,还出现了基于相机运动信息的主动视觉标定法和基于多幅图像对应关系的自标定方法。相机外参通过N点透视(perspective-n-point, PnP)来解决,如直接线性变换、3点透视法、有效的N点透视(efficient PnP, EPnP)、稳健的N点透视(robust PnP, RPnP)、无标定的N点定透视(uncalibrated PnP, UPnP)等。对于非线性相机模型,相机位姿的估计受选择的同名点对分布影响较大,文献[10]分析了定位点分布对相机位姿精度的影响。因此,在相机位姿估计时,应尽量选择精度高、点位分布均匀的点,以提高解算精度。完成相机内、外参标定后,即确定了相机的成像模型。相机可以将地理空间的三维坐标点映射为二维平面的像素点,但由于成像过程中深度信息的丢失,无法直接恢复单张图像的像素点在三维地理空间中的位置。因此,文献[11]假定地面为平面,将高程赋予0,通过4个或4个以上的同名点对,计算单应矩阵,完成视频图像的空间定位; 文献[12]构造成像射线,基于视线与数字高程模型(digital elevation model, DEM)相交法,确定目标的位置。基于单应矩阵的方法和视线与DEM相交法是监控视频空间化较为常用的方法,尤其是单应矩阵的方法,其计算量小。近些年,也出现了一些其他的映射方法,文献[13]将监控视频与三维地理信息系统(geographic information system, GIS)视图对应获取深度值,从而计算世界坐标; 文献[14]从开放图形库(open graphics library, OpenGL)透视成像的视角研究目标的定位方法。视频与地理信息的集成研究可以追溯到20世纪70年代。文献[15]首次将视频与地理信息集成,进行了街道与视频的关联。随后,视频与地理信息的融合逐步深入。2007年,文献[16]对视频GIS及其关键技术进行了全面的综述。文献[17]通过建筑模型和摄像头信息估计目标位置,研发了动态目标跟踪系统。文献[18]将人在空间中的移动以一种可理解的方式呈现。文献[19]将地理信息融合到基于视频的目标跟踪算法中,借助GIS实现车辆的跟踪。文献[20]采用视觉背景提取器(visual background extractor, Vibe)算法进行视频背景建模,首先提取动态目标,完成视频背景纠正; 然后将视频背景图像和动态目标映射至二维地图,实现了视频的拼接与融合,以及盲区推演。该方法有助于在大场景下实时动态感知动态目标。文献[21]定义了两种集成模型:GIS-增强视频和视频增强GIS,所实现的原型系统是分析基于GIS和视频集成的现实系统的基础。文献[22]提出单相机的GIS与视频运动对象集成的框架; 在上述研究基础上,文献[23]将GIS与视频的集成推广到多相机,使其具有了更广阔的应用场景。2018年,文献[24]提出了视频和GIS协同的人群状态感知模型。文献[25]结合物体识别与GIS坐标实现行人定位,从而准确描述人员位置,获取目标运动轨迹。纵观发展历程,监控视频与地理信息的融合,充分发挥了两者的优势,扬长避短,使视频信息多维度、多视角、多源化和统一化,提高了监控视频的时空认知能力,为视频智能分析提供了坚实的基础。映射模型建立了视频图像与地理坐标的联系,进而实现目标的定位与量测。文献[13]通过监控视频与地理空间数据的映射模型,实现监控视频动态目标时空信息的获取,如地理坐标、方位、高度、宽度等。文献[24]提出了人群状态感知模型,实现在地图中观察人群运动状态,满足可量测、可定位及宏观预警的需求。还有人通过校正视频图像坐标,实现地图兴趣点(point of interest, POI)在视频背景上的定位与标识,增强了视频空间的表达。文献[26]用Faster R-CNN模型进行目标检测,将目标点映射到同一帧进行比较关联,不考虑参考点出现的先后顺序,采用最小二乘拟合为一条直线,减少目标关联时间,进而设计基于网络地理信息系统(web geographic information system,WebGIS)的运动目标轨迹提取系统。文献[27]基于EPnP建立映射模型,实现室内动态目标定位,并研究了目标行为识别方法。文献[28]提取了监控视频动态目标的时空信息,并在三维地理模型上进行三维轨迹可视化。
目前,深度学习在目标跟踪中的应用越来越普遍,各种算法不断出现,大幅提升了目标跟踪的性能,但依然存在一些问题,如遮挡、运动模糊、光照变化等都给影像解译带来了一定困难。计算机领域的目标跟踪方法与空间位置信息的融合,有助于提高跟踪性能。文献[29]选择位置、颜色和大小等对视角不敏感的特征,进行匹配概率的计算。文献[30]在存在监控盲区的多相机目标跟踪时,整合时空线索和外观线索进行目标匹配以提高跟踪性能。文献[31-33]基于地平面单应性的约束,通过坐标位置的判定,确定是否为同一目标,保持跨相机目标跟踪中同一目标标签的一致性。文献[34]将视觉中的二维像坐标还原为物方目标可量测信息,利用位置信息和目标尺寸,提高目标跟踪准确性。监控视频与地理信息的融合,可有效解决视觉领域中目标解译的一些问题,提高跟踪的效果。
传统的视频压缩没有考虑地理信息,仅在图像空间实现,展示的视频目标运动轨迹是基于像素的。监控视频动态目标与地理信息的融合,可实现以地理场景为背景的视频压缩,展现目标在地理场景中的运动情况。文献[35]实现了对监控视频运动目标的提取,基于单应映射获取目标轨迹,以具有地理方向的轨迹进行聚类,从而实现监控视频压缩,该方法解决了区分表达不同方向的运动目标压缩的问题。在将视频信息展现在虚拟地理场景中的同时,文献[36]还对这种虚实融合的压缩方法进行了分析和评价。
地图是地理信息表达的媒介,是人们判定方位、认识空间信息的重要工具,具有直观性、一览性等优点。随着测绘技术手段的进步,更多实用性、创意性元素如街景、遥感影像、三维模型等融入到地图制作中,增强了地图的视觉表现力。但当前的地图仍然侧重表达静态元素,地图所需要的基础地理信息数据都是事先测量并存储在数据库中的,具有实时性差、更新慢的特点,无法反映动态变化的场景。而监控视频具有实时性强、场景还原度高的特点,为地图对动态目标的表达提供了最直观、最真实的素材。将两者融合,有助于优势互补。通过视频纹理映射技术,实现实时视频图像与数字地图的融合,便于监控人员直观、快速地了解监控区域,进而进行数据分析和辅助决策[37]。文献[38]提出从视频中提取地理信息的方案,为视频GIS的研究提供了帮助。浙江省地理信息中心开展了视频地图关键技术与应用研究,主要围绕视频地图的功能,探索了视频的动态场景表示方法。监控视频动态目标与地理信息融合,有助于对当今快速变化的现实世界进行有效的表达,满足智慧城市等建设对新型场景的需求。除此之外,监控视频与地理信息的融合还可以用于最短路径搜索[39]、提供事件发生视图[40]、管理相机和视频碎片数据[41]等。
监控视频与地理信息的融合具有特色应用、操作直观性、展示动态性、业务联动性、管理实时性等优点,在智慧城管、智慧交通、智慧城市建设中发挥着重要作用。但地理信息与监控视频融合也存在一些发展瓶颈和困难,解决这些瓶颈和困难也是未来的发展方向。
对于固定位置的监控视频,目前的研究主要集中在基于平面的约束,通过单应矩阵建立从图像坐标到地理坐标的映射模型,实现的是目标的二维定位。对单视角、侧重目标在多相机模式下的运动表达,还需进一步开展研究。目标的三维定位与量测,可使目标具有真实的空间位置感,进而达到在三维地理场景中可视化表达目标的效果。
监控视频中涉及与时空有关的目标,需按照地理信息的形式纳入空间数据库统一管理。空间数据是GIS的根本。在现实中,空间数据在格式、质量、规范等方面往往存在很大的差异性,尚不能满足高质量的使用要求。一个系统中通常包含一个或多个图层,每个图层又包含许多要素,每个要素都利用唯一标识号关联其图形和属性。因此,需要确定空间数据标准。另外,可视化是监控视频与地理信息融合的最终表达。行业符号的标准化不仅有助于用户体验的提升,同时有助于监控视频中与时空有关的内容的直观展现。
与传统的监控系统相比,集成了空间位置的监控系统增强了用户的空间位置感,改变了传统的监控系统割裂、静止的状态,以地理信息为桥梁,集成所有摄像头的信息,有助于用户把握整体态势,提高挖掘图像信息的能力,同时为应急决策、智能分析等提供技术支持。因此,需要引入更加科学、有效、可靠的决策模型,在发生突发事件时,相关部门可以快速汇总信息,以最优方案解决事件。
随着相关领域技术的进步、研究的深入,监控视频与地理信息融合研究已经取得了很大进展。两者的融合在目标的定位与量测、多相机目标跟踪、视频压缩、地图更新、智慧交通等方面都有着广泛应用。静态地理信息和动态视频的深度融合,提供了统一时间和空间参考框架的大数据。这些具有内在逻辑关系的大数据不仅为深度学习在更多行业(领域)、更大(空间、时间)尺度、更多维度上开展研究提供数据方面的支持,同时必将对测绘学的发展产生深远影响。作者简介:韩世静(1984-),女,博士生,讲师,主要从事导航定位与位置服务、计算机视觉研究。E-mail:hsjmsf@163.com通信作者:郝向阳。E-mail:xiangyanghao2004@163.com点击文末“阅读原文”即可查看原文章。
《慧天地》敬告
《慧天地》公众号聚焦国内外时空信息科技前沿、行业发展动态、跨界融合趋势,发现企业核心竞争力,传播测绘地理信息文化,为时空信息类相关专业学子提供日常学习、考研就业一站式服务,打造政产学研金服用精准对接的平台。
《慧天地》借鉴《读者》办刊理念,把时空信息领域的精华内容汇聚到平台上。我们高度重视版权,对于精选的每一篇推文,都会在文章开头显著注明出处,以表达对作者和推文引用平台版权的充分尊重和感谢;对于来源于网络作者不明的优质作品,转载时如出现侵权,请后台留言,我们会及时删除。感谢大家一直以来对《慧天地》的关注和支持!
——《慧天地》运营团队
![]()
投稿、转载、商务等合作请联系
微信号:huitiandi321
![]()
邮箱:geomaticshtd@163.com