空间视频和GIS

摘要。 GIS的空间数据基本单位表示通常是根据点，线和面。但是，另一种类型的空间数据正在变得越来越频繁捕获的是视频，但在GIS中却被很大程度上忽略了。数字录像是现代社会中常见的一种媒介，包含多种形式，从简单的便携式摄像机到复杂的测量和监视系统，尚未完全检查或实现GIS中的地理表示形式。大多数某些情况下通常会在设备和/或物体被捕获时捕获正在观看中的录像。特别有趣的是视频流可以是或具有与空间数据（例如位置和方向）相关联以在地理上进行创建参考视频数据，为简单起见，将其定义为空间视频。从根本上讲，视频的本质是记录空间，因此可以在准确地获取这些素材并将其与该素材相关联，重要的地理元素可以考虑在GIS中进行集成和分析。现有的商业和研究空间视频系统主要用于调查或LBS的角色，通常是定制的和特定于应用程序的。这些系统不会将空间视频建模为任何公认的一般被认为既独立于数据又独立于*台的标准。他们不支持从纯粹的空间内容角度进行GIS集成和/或分析。以视频图像/遥感为中心的方法比较普遍，其用法范围从简单到可视化界面连接到交互式计算机视觉系统。主要是什么忽略了一种空间方法，其中在每个方法中记录的固有地理范围视频帧可以在地理空间分析环境中进行建模和使用。虽然这个造型这种方法尚未完全实现，但确实存在于基于开放地理空间的GIS形式中联盟（OGC）标准，其中视频的空间上下文在结构中定义称为ViewCone。但是，仅ViewCone 定义了每个帧的地理范围的2D模型，并且仅限于三面或五面多边形表示。因此，本文探讨了通过使用 GIS中的基本数据类型；给出使用这种方法的一些例子；描述在GIS中使用空间视频的一些问题；然后演示这些问题如何正在解决。这分三个阶段完成。首先，详细介绍了空间视频提供了其当前的GIS角色-通过完整介绍空间视频的不同元素，然后回顾其在商业和商业用途中的用途学术应用领域。其次，给出了替代性的GIS约束ViewCone数据结构的简要理论概述，该数据结构定义了更灵活的空间视频模型用于2D和3D GIS分析和可视化。第三，选择性的结果样本是基于将这种方法的实施应用于受限空间特定研究区域中的视频数据源。

关键字：空间，视频，视域，分割，GIS。

1.介绍空间视频

　　通常，摄影是一个易于理解的概念，可以定义为捕获一系列移动的过程和/或方法和操作集图片。它已经存在了很多年，并且在我们的日常生活中一直存在以多种捕获和显示格式。空间视频是这些的特定扩展空间属性应用于部分或全部图像/帧的视频格式在捕获的序列内。这种空间数据的多个示例存在于捕获，存储和使用的各种格式和模式。在一般而言，空间属性可以包括任意数量的不同描述符，这些描述符可以帮助定义视频的图像/帧位置，时间，高度，方向或其他空间属性。特别是，本研究中使用的空间视频数据是以下属性：

　　（1）它是从沿公路网行驶的道路勘测车辆中捕获的路线走廊。

　　（2）捕获的视频大致垂直于路面，并且与行进方向重合。

　　（3）每个视频帧都使用一组GPS位置参数在空间上建立索引。

　　空间视频采集方法因所用传感器的类型而异。视频和空间属性的集成和记录形式；用于纠正，改善和同步传感器不同数据捕获频率的方法；以及在其上获取这些数据的*台的固有物理属性。然而，空间视频的收集和使用通常是一个线性过程，涉及许多运营阶段：（i）购置；（ii）加工；（iii）储存； iv分发；（v）分析。

　　这些阶段中的每个阶段通常都需要使用多种不同的技术和方法开发的异构操作的其他子集，以处理特定的目标或应用程序。空间视频应用领域的一个典型示例是航空摄影（McCarthy 1999）。这项工作以及其他类似工作本身就是一个独特的商业和研究领域，许多组织和机构使用基于空中的空间视频来获取各自领域的*面视图。但是，在基于地面的环境中对空间视频的使用的研究已很少，并且被很大程度上忽略了。

2.空间视频挑战

　　在许多制图，测量和环境分析项目中，空间视频的现有固有特性可以作为定制的数据采集解决方案。在尝试为空间视频定义更通用的GIS模型时，尤其是先前捕获的数据集时，这种多样化的需求导致了许多问题和挑战。这些问题中的主要问题是对空间视频作为GIS数据源的位置的广泛了解。通常，空间视频是出于特定原因而收集的，用于提供特定的解决方案，而且很可能不再使用。因此，在没有构想或实现数据的进一步使用或应用的情况下，必须满足即时的需求。这导致大量的空间视频被收集，然后以多种格式存储在各种发行档案中，从而在视觉和空间的细节和质量上有很大不同（和未记录），没有进一步的使用。

　　这些问题集中在没有集中化或通用化的结构来以GIS的角度索引和搜索这种数量的视频数据的方式，类似于Web Map Services或Web Feature Services采取的方式。不存在定义空间视频的通用结构以及可以在其上执行的基于GIS的分析类型。存在的大量回顾性空间视频没有标准化视频或一致的空间数据格式。就记录系统的固有分辨率属性，捕获的对象的可感知清晰度和成帧语义而言，视频数据没有一致的索引和元数据标记方法。例如，视频图像格式不包括与数码相机图像中使用的可交换图像文件格式（Exif）标签类似的有关每个帧的捕获参数信息。另外，一些现有的定制系统包括以语义定义的形式的视频，其中文件目录结构包含在获取后的过程中捕获的图像序列。因此，此视频表示形式不符合任何现有的视频容器格式规范。就勘测校准参数而言，空间和视频数据的质量和准确性也存在很大差异。通常必须追溯推断这些数据，以便可以将这些数据用于定制系统不希望使用的环境中。而且，GPS空间精度包含定位误差范围，如果在2000年以前的选择性可用性时代中捕获到，则定位误差范围可能更大。没有固有支持的格式化方法可以将这些空间和视频数据链接为空间方向的记录。例如框架的水*，垂直角度或其相对于任何空间数据传感器的位置。这些也需要从图像中凭经验推导或在系统校准阶段定义。

　　涵盖所有这些空间视频格式的主要（显而易见）因素是，视频提供了环境的视觉视角，在该环境中，可以通过捕获的动作获得更逼真的场景体验。这方面始终定义了在GIS中使用视频的应用领域，并且涉及以下任何目标：

　　(1)用记录的制图环境数字图像增强GIS；

　　(2)通过对图像内容进行有监督或无监督的视觉分析，使用视觉信息生成其他空间数据集。

　　(3)使用视频的地理内容和空间参数对视频进行分段或语义描述.

　　因此，空间视频在其应用中具有许多特定方法，并且还具有许多实际用途。但是，缺少一个通用的，受GIS约束的格式正确的定义，该定义无法描述如何根据其地理位置轻松地对任何空间视频序列进行建模，以便于视觉播放，内容分析，序列分段和索引编制。

2.1 空间视频建模方法

　　考虑了两种方法来定义这些挑战的背景：一种基于现有商业和学术应用中对空间视频建模的流行方法；另一种基于现有方法。另一个考虑基于GIS的空间数据交互环境。

2.1.1 以视频为中心/远程感应的方法：

　　第一种方法研究了现有的基于视频的方法，其中空间视频调查是视频和空间数据的独立单元。这是处理空间视频的标准方法，其中以嵌入或关联的文件格式对各个帧或帧组进行空间索引。存在各种能够存储和索引具有元数据属性的视频的视频文件格式和标准。但是，这些不是专门为空间数据设计的，因此需要定制解决方案。这些解决方案的优势在于，可以通过设备和*台封装空间视频数据，这些设备和*台可以以预定义且经过良好校准的方式进行管理。这提供了一种一致且可靠的解决方案，其中输出视频和空间数据流以易于理解的格式自包含，其中在单个源位置中包括所有相关调查信息。

　　基于现有系统的知识，这种方法的缺点是系统之间缺乏互操作性，并且调查之间的空间内容表示形式不一致。虽然可以在GIS分析系统中处理不同的视频格式，但每个视频调查的空间数据语义都会造成很大的困难。通常，每个调查都是针对特定的面向空间的目标而捕获的，其中生成的地理信息只能描述孤立帧序列上的视频特征或事件（McLoughlin等，2008）。通常，由于潜在的多样的空间语义，这为在GIS中使用视频的空间数据造成了障碍。从使用的角度来看，此方法基于遥感，其中各种方法旨在基于空间数据提示和视觉技术从场景中提取信息，而不是基于空间操作方法来提取视频。

2.1.2 以GIS为中心的方法：

　　以GIS为中心的方法基于空间范围的上下文，其中以GIS为中心的方式对视频序列的对象空间进行建模和分析。有效地，生成每个视频帧的体积模型以表示在每个视频帧或帧序列中捕获的地理空间。此处的目的是概括视频的空间表示形式，并在基于GIS的分析环境中使用此方法。因此，可以仅基于视频所包含的地理位置来对其进行分类，分段，检索和/或索引。使用此方法提供解决方案的可能性很多，其中可以定义对视频空间内容的语义理解。这种方法的优点是其对多种类型的空间视频调查数据的广泛适用性以及为用户提供更大的内容可访问性的机会。这种方法的有效结果是在通用空间数据访问方案中集中和概括现有和将来的空间视频数据。这种方法的缺点是涉及组织和吸收空间视频调查格式的工作，以及单个连贯的GIS数据源中包含的空间精度和视频质量内容的不同级别。

　　在GIS中使用视频的流行方法学是以视频为中心的，其中通过访问视频镜头来创建和/或欣赏空间数据。但是，现有空间数据互操作性的主要方向是对内容进行概括的标准和系统的开发（ESRI 2003）。 Web Feature Services和Web Map Services提供了空间数据存储，访问和管理方法，这些方法为大范围的空间数据提供了定义明确的GIS互操作性配置文件。但是，这些标准和技术当前不支持空间视频。

2.2 更广泛的研究目标

　　尽管空间视频是非常有用的视觉数据源，但是任何单个定制的应用程序通常都限于基于使用视频的视觉信息来增强GIS的一组特定的项目目标。通常，此类系统的结果是通过真实世界的图像和/或回放序列向GIS空间内容的沉浸式用户体验转变。在其他情况下，可以根据录像中捕获的环境特征生成详细的空间数据（ÓRiain＆McCarthy 2006）。但是，原始视频通常会变得多余且超出初始项目要求而无法使用，但仍保持某种形式的长期存储格式，而没有设想使用任何重用方法来提取其他空间数据。但是，如果可以为每个空间视频源定义一个语义上适当的地理表示形式，并将其存储在通常可访问的存储库中，则可以简化对视频源的访问和其他研究方法和/或想法的应用。因此，这项研究的重点是分析GIS中空间视频的最新技术。在此之后，提出了一种通用的GIS约束空间视频数据结构，作为建模和访问大量空间视频调查数据的解决方案。然后可以扩展此方法，以实现和证明在GIS角色的空间视频的使用和研究中提出的新模型的灵活性，可扩展性和互操作性。

　　对于可以使用空间视频的任何特定类型的场景，此目标都有许多逻辑上的限制。然而。一个主要目的是基于众所周知的GIS分析技术从空间视频数据索引中检索逻辑视频流或图像。

3.空间视频和GIS

　　在视频，空间数据和GIS地理空间分析的特定区域之间创建可互操作的关系并非易事。大量的商业和学术研究努力和投资已经看到了许多用于获取和使用空间视频的格式和系统。本节在使用GIS中空间视频的商业和学术研究应用领域中讨论其中的一些工作。空间视频是从其最一般的意义来处理的，其中收集和后处理方法已经定义了一个用位置和/或方向信息标记的帧数据集。因此，可以考虑在任何GIS应用领域中使用任何形式的空间标记视频。

　　空间视频的大多数应用是一种视觉增强功能，用于改进以地图为导向的GIS环境的空间推理。这种方法的根源是麻省理工学院的Lippman（1980）所做的工作，当时Aspen电影地图项目在GIS环境中使用空间视频。该项目将图像整合到了面向用户的信息增强工具中，以进行计算机演示和交互。在这个项目引入的许多不同方面，已经进入了许多中间阶段。从用于捕获数据的移动制图系统的类型到空间视频的处理，存储，分析，使用和呈现给最终用户。当前，空间标记图像的最广泛应用领域是Internet，Amazon®于2005年在Internet上发布了A9.maps Block View（2006年）。但是，此服务已被撤回，只能以市场为主导的Google™StreetView（2007）和Microsoft®Live Maps（2005）为其灭亡做出了贡献。

3.1 商业应用

　　基于GIS环境中空间视频的使用，已经开发了许多商业应用领域。出于多种原因，许多不同类型的公共和商业实体都使用了空间视频。例如：政府和地方当局，公用事业承包商，国防和紧急服务以及运输和服务公司。空间视频的使用通常涉及远程管理，其中可以基于对环境的目视检查来进行道路网络资产清单，验证和审计，规划和工程评估，而无需个人在调查区域内。在这里查看的系统范围从提供专用的，定制的空间视频硬件和软件系统的高精度测量实体，到基于互联网的标准和免费服务产品。

　　Routemapper是加拿大国际咨询公司IBI集团的营销品牌（RouteMapper 2007）。 Routemapper会为公路和铁路测量项目的空间视频的收集，分析和使用提供咨询，测量和定制软件服务。在他们的系统中，可以通过常规视频播放器样式的控件在时间上控制视频，也可以通过相关栅格或矢量数据集的制图界面在空间上控制视频。可以将先进的摄影测量技术应用于视频镜头，以进行二维和三维的真实世界测量。

　　红母鸡系统公司是直接的竞争对手，他们提供全方位的空间视频采集，处理和分析服务及产品（红母鸡2005）。同样，他们的软件解决方案提供了一套标准的GIS和与视频相关的控件，例如数据和功能记录，时空视频搜索，图像和地图测量以及行业标准的空间文件格式。

　　这些商业空间视频供应商之间的一个潜在但重要的区别是Red Hen Systems可以记录和处理多个视频流。他们可以根据用户定义的视频和/或地理序列编辑和拼接这些不同的流，然后可以将其导出到新的视频流。 Routemapper当前不具备此功能。但是，只要在验证阶段对视频进行了预处理，就可以处理不同类型的视频格式，在该验证阶段，将视频抓取并在空间上标记为独立的空间视频序列。 Red Hen Systems要求所有空间视频格式均为DVD格式，这需要单独的转换过程。

　　ImmersiveMedia®（2006）开发了一种称为Immersive Video的硬件和软件工具集。视频数据采集硬件系统称为Dodeca 2360，包括11个摄像头镜头，它们嵌入在一个具有360°水*和290°垂直覆盖范围的单元中。该摄像机系统以每秒30帧的速度捕获视频数据，可以通过自动镶嵌应用程序对其进行后处理，以将其处理为任何所需的输出帧速率。这种形式的空间视频的最显着用途是通过StreetViewGoogle®Maps界面（2007）。 ImmersiveMedia®最初是由Google®签约的，目的是对美国多个城市进行调查，但是自那以后，他们就购买了必要的设备，现在可以自行管理数据捕获。迄今为止，由于无法执行标准空间操作，因此在GIS术语中Google对这种形式的空间视频的使用受到很大限制。 Google®Maps或Earth界面均无法基于（例如）直线或多边形空间操作来查询StreetView视频数据的定制片段。

　　Oxford Metrics Group（OMG 1984）是一家伞形公司，是由一组专业技术公司组成的公司，这些公司为各种商业和政府组织提供运动捕捉和视觉几何系统和服务。 2D3产品具有从无人机捕获的空中运动图像生成3D地形图的能力，这尤其令人感兴趣。但是，在本文的背景下，他们的工作专长于基于计算机视觉的技术，该技术通过更好的可视化来扩展空间视频的利用，这与稍后讨论的GIS方法相反。

　　Francica（2009）在GEOINT 2009会议上发表的一篇宣传文章还重点介绍了使用GIS中这些空间数据源的许多商业/军事视频应用。它们包括由波音公司开发的名为DataMaster的制图*台，在该*台上标准的视频搜索和分类选项得到了增强，以包括3D环境中的图像可视化。哈里斯公司还展示了全动态视频资产管理引擎（FMVAME）。他们专注于使用空间数据索引视频并压缩结果以实现更快的实时传输的解决方案。在此基础上，并与美国其他许多组织合作，开展了一个新的以军事为导向的项目，名为“ Valiant Angel”（Lawlor，2008年），旨在支持集成，开发和传播从无人机获得的视频数据，以便做出更明智的决策。

　　尽管存在其他许多空间视频解决方案供应商，但很难确定其核心技术和结构。与Intergraph的GeoMedia（第3.3节）和Google的StreetView一样，这些完整的系统是通过结合其他供应商的现有技术来提供的。

3.2 学术应用

　　在本节中，将考虑对空间视频的开发和使用做出的学术性贡献，尤其是对数据结构和GIS接口的关注。此处不考虑空间视频数据收集，因为捕获视频和空间数据的多种方法和技术与在GIS中建立索引，搜索或使用它们的方法有关。尽管针对用于空间视频收集的多种移动*台方法，以及用于后期和实时视频帧至空间数据索引的多种算法和技术，已有大量文献报道，但尚无大量工作要做已完成，其中考虑了所生成的空间视频数据的更广阔的理论或实际GIS环境。没有哪一项学术著作将空间视频识别为数据源，可以从中定义广义的数据结构或空间操作集。

　　与本研究相关的文献应考虑三个重要观点：　

　　1）用空间数据索引和存储视频的方法。
　　2）GIS中空间视频的理论数据结构模型，尤其是任何三维形式。
　　3）在基于GIS的操作查询中使用空间视频概念。

尽管有些研究是独立的，并且仅涉及GIS建模或视频帧空间数据索引，但在许多情况下，对这些主题的研究仍在重复。

　　基于空间元数据的视频存储，索引和检索。他们重点介绍了一个系统，其中使用MPEG7（2006）和MPEG21（Bormans＆Hill 2002）视频文件多媒体元数据标准实现来提供完整且可扩展的视频帧索引系统。通过使用这些标准，不仅空间数据可以与每个帧相关联，而且多种类型的元数据可以扩展定义的视频流的可搜索功能。

　　O'Connor等（2008年）实现了一种基于空间元数据的视频存储，索引和检索方法的特定示例。他们重点介绍了一个系统，其中使用MPEG7（2006）和MPEG21（Bormans＆Hill 2002）视频文件多媒体元数据标准实现来提供完整且可扩展的视频帧索引系统。通过使用这些标准，不仅空间数据可以与每个帧相关联，而且多种类型的元数据可以扩展定义的视频流的可搜索功能。

　　他们还开发了一个用户界面来查询空间视频数据库。但是，只有在已记录GPS标签的地方才对视频关键帧进行索引，因此，正是视频图像构成了视频返回序列的索引控制。同样，涉及基于区域的操作的空间查询仅返回该区域内的所有视频关键帧图像，这由拍摄图像的GPS位置定义。基于本文讨论的空间视频数据结构，并重新定义一些空间操作语义，这种类型的空间操作应具有更精确的含义。由于受GIS约束的方法，它使系统能够从可视化一个区域但可能未捕获到其中的视频帧中确定一个区域中捕获但不可视化的视频帧之间的差异。

　　Nobre等（2001）是第一个引入在每个视频帧图像中捕获地理空间的概念的人，其中可以使用GIS数据结构对该空间进行建模。在这种情况下，开发了决策支持系统，用于基于用户兴趣空间查询来检索视频序列。该系统严重依赖基于可视图像分析的手动用户校准。捕获的视频将根据GPS数据进行地理参考，然后等分分割视频所经过的线以代表每个帧所位于的点。然后可以查询每一帧并进行手动地理参考，以确定图1所示的类似数据结构格式的视锥台对象空间。这是基于对关键图像的手动调整，该调整是基于对真实世界的目视检查而校准的对象投影到图像*面上。使用这种方法，可以基于任意校准来实现对相机框架对象空间的精确测量。

图1.这两个多边形规范来自OGC地理视频服务ViewCone规范文档，并定义了标准中实现的唯一空间范围轮廓。

　　VideoGIS是Navarrete等人在工作中定义的系统。（2002年），其中空间视频索引基于地理内容分割。描述了XML空间数据示意图，高级处理算法和索引结构，而空间实现则基于标准化的OGC GIS数据结构。但是，没有提供有关在空间视频查询上下文中自动创建或使用这些数据结构的详细信息。本文和Nobre的系统都涉及本文中开发空间视频GIS查询数据模型的一些核心概念。他们介绍了将视频帧对象空间建模为地理范围的概念以及为此目的使用GIS数据结构的概念。但是，它们没有详细说明这些要点，也没有详细说明它们在GIS分析环境中的可能用途。

　　韩国电子和电信研究院（ETRI）的许多论文都详细介绍了一种称为GeoVideo的VideoGIS系统。文献首先定义了空间视频系统的系统规范（Kim，Kim，Lee，Park等，2003a）；第二，用于视频元数据标记的数据结构（Hwang等，2003）；最后，在基于移动位置的服务中实现这些概念（Qiang等，2004； Kim等，2003b）。在这些论文中，他们介绍了一种称为MediaGIS的最终产品，其中详细介绍了从数据收集到数据分发到最终用户的完整实施和完整的系统。

　　元数据空间存储机制将MPEG7数据结构用于视频帧注释，其中包括空间变量。在ETRI上进行的工作还专门开发了基于MPEG标准的此数据结构的实现（Joung等，2003）。集中式3D数据库构成了返回相关图像或空间视频序列的空间查询的主干。在成功查询用户后，将根据预处理后的空间和方向数据生成视锥，该数据会索引每个图像，并针对现有3D城市模型对从2D图像空间和3D对象空间传输的透视投影进行校准。这项研究没有假设有如此丰富的数据源，因此仅基于经验测试和建模假设并改善了视锥。

　　在类似的情况下，可以在Milosavljević等人的工作中进行。（2010）用固定的视频图像增强了GIS。这项工作利用了整合现有空间数据和视频监视系统的能力。他们开发了基于与GIS系统的空间上下文交互的实时图像检索和相机控制系统。空间查询操作有两个方面，因为来自摄像机的信息将定义GIS空间数据视图，或者GIS空间可用于控制摄像机视图的位置。

　　Chen等（2009年）最*发布了一个LBS上下文空间视频系统，该系统将视频与地图行驶方向集成在一起。已经开发了一种用户界面，该用户界面可动态生成可播放的行驶路线的视频序列。在许多方面，该系统都没有呈现上一节提到的许多商业解决方案中尚未实现的任何内容，但是，它们是第一个针对研究目的并在行车路线中针对它的解决方案。完成了一个二十个用户的案例研究，以测试概念验证，结果表明，计划行程的用户（尤其是在传统的地图阅读过程中）的沉浸式体验得到了改善。用户界面设计方面的考虑也得益于将其他研究发现纳入寻路和路线记忆的实现。这涉及到系统存储，突出显示和扩展对路线的焦点（例如路口和地标）至关重要的图像。

　　在Hirose等。（1998年）已经完成了一个基于多视图空间视频数据收集，处理和查询系统的交互式视频图像导航系统。此后，这项工作已经产生了许多扩展项目，这些项目使用多个摄像机来捕获空间视频，并且可以在动态视点播放器中播放，在动态视点播放器中，视点控制仅受视频捕捉系统中的自由度限制。在广濑（Hirose）中，基于八个通过位置和方向传感器校准的摄像机，可以实现360°水*观察系统。在进一步的工作中，例如在Pintaric等人中。（2000年）用一组数字传感器而不是单个摄像机也能达到相同的结果。最终，这种工作导致了上一节中重点介绍的沉浸式视频系统。

　　Cho（2007）强调的一项功能是能够基于对视锥的计算准确地定义相机的位置。这项工作无法从2D相机图片中构建3D图像，而无需知道相机的空间位置。该位置可以通过解决计算机视觉中许多有据可查的方程组来确定（Hartley＆Zisserman 2003）。在这项工作中，这是基于至少三个将3D激光雷达数据与2D图像点相关的参考点来实现的。这样的校准可以定义视锥台参数以反算相机位置。从概念上讲，本文的工作已颠倒了这一过程，因为已知摄像机的位置，并且可以将摄像机参数假定为可接受的误差范围。但是，如果可以使用激光雷达数据，则可以将其与此处介绍的过程融合，以为每个视频帧生成更准确的观看视锥。

3.3 混合动力发展　　

　　本节通过开放标准描述了以GIS约束方式进行视频建模的唯一现有方法论方法。开放地理空间联盟（OGC）是一个国际协作组织，负责收集来自政府，私营和公共部门等360多个组织在广泛的地理空间问题上的投入。 2005年，OGC Web服务第三阶段（OWS-3）计划定义了许多工作领域，其中包括用于开发和增强地理决策支持服务（GeoDSS）的一组软件配置文件。与这项研究直接相关的是一个特殊的GeoDSS子任务：地理视频服务的实现，该服务可以标准化对包含地理位置信息的视频的访问（OGC OWS-3 2005）。

　　该服务仍仅处于文档草案阶段（Lewis等，2006），但仍然非常全面。重要的是，本文档中包含的一组概念和规范构成了本研究中开发的改编实施的基础。核心相似之处是地理视频服务ViewCone概念。这是一个二维几何形状，定义了空间视频文件中每个视频帧的可视地理范围或空间范围边界框，如图1所示。它是根据校准的摄像机参数和记录的空间变量计算得出的。

　　OGC地理视频服务工作是由Intergraph®公司在2005/2006进行的，并扩展到其GeoMedia商业产品系列的全动态视频分析软件中（Intergraph 2008）。这是通过与EchoStrom（2003）视频地理配准和提取软件的各种技术合作实现的。

　　这项技术与传统的分离空间视频查看器的功能有所不同，后者可以增强普通的GIS界面。但是，尽管这种方法在GIS中提供了一种新的，更加身临其境的视频体验，但在这种情况下其应用仍在不断发展。它也仅针对航空视频进行定义，相对于在倾斜的情况下（即地面收集的空间视频）的相同过程的实现，将每个视频帧进行正交校正和扭曲到相关的椭球面上的过程相对更简单。由于严重的像素化是将这些方法转移到更倾斜的环境中存在的许多问题，但是是由于在正交于椭球表面的*面内扭曲视频帧而产生的许多问题之一。

　　重要的是，该软件定义了一种方法，其中“可以与所有其他地理参考的企业内容一起查询视频，以便以后可以轻松地定位和使用视频”（Wagner 2009）。稍后将根据本文中用于在GIS中对空间视频建模的广泛GIS约束方法来讨论此上下文。

4.寻求通用空间视频使用的解决方案

　　在本节中，有限的OGC ViewCone模型（Lewis等人2006）被重构为称为Viewpoint的数据结构。与通过ViewCone方法提供的格式相比，此方法通过更灵活，更易扩展的格式来概括开放的空间覆盖形式，从而为建模视频帧对象空间提供了通用的解决方案。 “视点”概念是基于将现有的方法学模型（包括等视线，视域和*截头体形式）建模后的理论结合起来的（Worboys＆Duckham 2003； Benedikt 1979； Turner等人2001）。其形式基于3D视域方法，该方法已定义为视锥台代表每个框架的地理空间。图2显示了定义基本结构的原理元素。它是一种更灵活的形式，因为可以对其进行更改和/或更新以提高地面空间视频的建模精度。在地面情况下，许多情况都需要这种灵活的建模构造，因为遮挡物可以随机进入和离开视频的观看空间以及影响相机景深和视场的地理限制。对于本文中提供的示例和图，定义了一个基本案例的最大Viewpoint结构。但是，视点结构的准确性可以定义为复杂程度更高，这取决于构造这些范围区域所采用的方法。

图2. 3D空间视频单帧Viewpoint表示。该图像还突出显示了2D可视化多边形，作为第5部分示例中使用的中心等分*面。

　　在本文中，每个视点都通过使用最少的空间和相机参数集来构建，以*似图像的地理范围。在这种情况下，空间元素是从GPS导出的，可以确定纬度，经度，高度和航向；但是，此特定源需要定制的半监督过程，以最大程度地减少其固有的各种错误并最大化视频帧同步精度。该过程定义了Viewpoint的原点（如图2所示）及其ViewCone元素的空间方向。生成地理范围空间涉及从该原点外推所有点，这些点将定义形成多面体ViewCone形状的六个多边形，如图2所示。这些点可以通过求解Vincenty（1975）中定义的大地测量正演算法来计算。为此，视频流的视角和景深是根据摄像机的焦距，光圈和混淆圆来计算的。这些可以从可能伴随特定调查的已知校准数据中获得，也可以通过拟合方法从经验值基础上从视频的监督观看中凭经验确定这些变量来获取。

　　该方法已应用于46分钟的倾斜地面空间视频。 3D生成了大约75,000个视点，并将其存储在PostGIS空间数据库中。为了演示如何在GIS中使用空间视频，已在每个Viewpoint的2D中心解剖*面上执行了许多空间视频地理空间分析操作，如图2所示。最简单的是，2D中心解剖*面是四个点。多边形要素，计算为被*景深*面和远焦点限制*面的一半高度包围的面积，如图2所示。这些*面是ViewCone空间基于其方向的垂直边界此视频数据集。以下各节描述如何在一组选择性的地理空间分析操作中使用此模型。

5.视频地理空间分析

　　在本节中，将介绍基于GIS的空间视频分析示例。它们是从使用GIS进行视频的分析，分割或分类的许多可能方法中有选择地选择的，并且基于涉及每个视点的*面图2D中央分割*面的查询，如图2所示。重要的是，在这种情况下，视点数据结构定义了最大可能的地理覆盖范围，而与图像空间中可能存在的遮挡或其他限制无关。这些示例的共同点是在查询上下文角色中使用非视频空间数据，其中与调查区域相关的点，线和面单位用于提供一个实验*台，以演示不同的GIS操作和空间数据源如何能够与空间视频一起使用。每个示例在操作上均独立于视频，但直接与其视频播放索引相关。图3显示了研究区域的概况以及每个调查路线的轨迹。

图3.研究区域的正射影像，上面有五个独立收集的空间视频勘测路线。每条路线都定义了点对点的返回调查，即已在两个方向上捕获了视频和空间数据。已使用GIS中心空间方法从这些调查中填充PostGIS数据库，该方法定义了录像的Viewpoint数据结构表示。

5.1视点

　　在此示例中，在Viewpoints数据库上执行了视点空间查询操作，在该数据库中检索到捕获了感兴趣点可视化的视频素材。这涉及在GIS应用程序中创建一组控制点以生成查询数据集。然后在SQL空间操作中使用此数据集来检索捕获这些点的所有视频帧。结果应形成视频序列的线性逻辑集，以表示这些点出现的所有帧。通常，这是通过标准SQL控制语句实现的，其中每个Viewpoint构造均表示查询搜索空间。这有效地导致了点入面操作，其中在每个点中搜索了其中包含的所有Viewpoint面。

　　该操作的结果（包括地面真实性经验测试）表明，所采用的方法提供了准确的结果，图4中显示了一个示例。但是，需要定义各种注意事项，因为Viewpoint搜索空间不一定是准确的。视频帧地理范围的表示形式。这是因为计算出的最大ViewCone并未考虑物理空间中的任何遮挡，而是假定图像正在捕获扩展的刨光区域。在涉及图4的查询结果的情况下，测试已突出显示在视点左侧捕获的视频帧包含遮挡。在查看结果框的物理空间时，另一座建筑物和一些大树遮挡了视点查询所代表的建筑物，因此它们并不是最佳的代表视图。 5.4节讨论了对此的解决方案。

图4.观察点操作的示例结果可视化。标有“ GardaStation”的（红色）点是请求所有视频录像的关注点。结果显示了包含查询点的每个Viewpoint。每个视频帧捕获位置（视点原点）都以绿色点突出显示，而地理范围多边形则以透明红色多边形突出显示。每个绿色的Viewpoint捕获位置都会为视频帧建立索引，以进行视觉检索和回放。

　　根据搜索空间的上下文，最大视点变得很有用，因为视点的位置表示建筑物质心，而不是基于多边形的轮廓线。如果每个Viewpoint多边形准确地代表了它捕获的空间，即ViewCone多边形的边界终止于建筑物饰面，则将需要另一种方法来表述此空间操作，因为不会返回任何Viewpoint。因此，该操作将需要考虑许多其他空间数据集以帮助定义更高级别的准确性。从另一种意义上说，这种实现视点操作的方法使空间视频可以针对不包含查询对象的那些帧进行更准确的分割。

5.2视图中的多边形　　

　　在此示例中，使用了爱尔兰人口普查区多边形数据集。从该集合中，一个多边形形成搜索空间查询，在该查询空间查询中返回记录该多边形的地理空间的相关空间视频序列。通常，此查询可以比作多边形点搜索；但是在语义上有重要区别。在此，查询问题被约束为定义捕获多边形中的空间的视频，而不是定义多边形中捕获的视频，考虑到视频的特定数据类型，即空间的可视记录，这可能是更合理的方法。因此，上下文是：视频帧中有什么，视频帧中没有什么，即可以在多边形边界之内，之上或之外捕获在查询区域中记录空间的视频。因此，帧捕获位置点不能完全满足多边形中点方法，因为在搜索多边形内部捕获的帧可能不是记录区域空间。此外，在搜索多边形外部捕获的帧可能会记录应包含的空间。因此，视点地理视域范围可用于控制视频帧是否与搜索空间相关。

　　图5突出显示了这种空间操作的一种方法的结果。在这种情况下，实现了一个Viewpoint空间交叉点，其中每个ViewCone区域的至少60％包含在查询多边形内，而不管其中是否包含捕获位置点。因此，如果框架中未包含其视域地理范围区域的60％或更少，则从结果集中排除在搜索多边形之内，之外或之外捕获的所有视频片段。显然，可以根据所需结果轻松更改此特定方法以及相交百分比界限。但是，要强调的要点是，视点建模方法提供了额外的空间细节，以完全定义与视频及其捕获的空间有关的查询问题。

图5.视点控制的视图中多边形操作，其中查询多边形是搜索空间。捕获的多边形可视化结果视图将显示为绿色点，捕获区域的每个相关地理范围多边形将覆盖为红色透明ViewCone。

5.3专题报道

　　基于前面示例中使用的相同多边形数据集，此示例研究了一种用于空间视频分割的内容分析方法。已为查询面分配了土地用途分类，然后将其与Viewpoints数据库在空间上相交。通过此操作可以实现许多可能的获取结果的方法。在这种情况下，目标是定义土地用途捕获的总面积和可用视频总量的百分比。表1列出了根据每种土地使用类型定义的录像百分比和地理区域的结果。对于区域捕获结果，它们表示按区域表示的所有Viewpoint多边形的并集以及对并集面积的计算，而不是每个Viewpoint的ViewCone的总面积之和。同样，由于在查询操作中仅使用了多边形数据集的一小部分，因此空间视频的百分比仅代表整个数据库的一部分。

表1. Viewpoints数据库专题报道操作的汇总结果。根据多边形数据集土地使用分配，确定视频内容包含主题地理内容的各个区域，但还要确定数据库中保存的全部视频的百分比。

　　尽管此案例提供了汇总的分析结果，但它们仍都链接到视频帧索引。因此，容易获得由5％的住宅土地使用类型表示的空间视频的序列以进行回放。另外，如果Viewpoint的ViewCone跨越多边形边界，则基于与ViewCone的边界相交来分配面积计算。如前所述，这些结果可以从包括时空，空间和视觉问题在内的许多其他角度来构成。例如，时间可能是重要的约束条件，因为离散时间段内的视频记录空间，土地使用可能随时间而变化。因此，空间操作查询将需要时间上的限制，因为只有某些视频镜头才能在特定时间准确地表示特定土地用途分类。

5.4视点精度

　　到目前为止，本文已经提出了一种Viewpoint数据结构，该结构通过对现有OGC ViewCone方法的修改来对空间视频进行建模。在这两个模型中，根据摄像机的参数和空间数据，对每个视频帧的地理范围进行了基本计算。在每种情况下，外推的ViewCone定义了最大范围，不考虑物理空间遮挡。在本节中，将通过一个示例突出显示一种空间数据方法，该示例使用建筑物足迹数据集生成在每个帧中捕获的空间的更准确的Viewpoint模型。此操作将每个视点与建筑物足迹数据集相交，以计算更准确的可视区域，然后可以将其更新到数据库。图6显示了此操作的结果，其中已重新计算原始ViewCones，以更准确地表示每个视频图像中记录的空间。

　　使用许多其他来源和形式的非视频空间数据，此过程可以进行许多扩展。它提出了一种新颖的GIS约束方法，可以生成视频帧对象空间的准确视域，而视频的视觉特性将被忽略。这与现有的遥感技术形成了鲜明的对比，在现有的遥感技术中，视频的视觉特征对于摄影法中提取空间特征的过程至关重要。正在进行使用Lidar数据和环境的其他3D模型来生成更准确的相交数据集的研究。但是，根据基于视点的空间操作的预期结果，数据结构需要能够动态生成或以不同形式存储。在第5.1节中提到了这一点，除非使用最大ViewCone，否则视点搜索将不会那么有效。

6.结论

　　出于多种原因，很大程度上忽略了GIS中的视频建模。收集和存储视频素材所涉及的数据量，缺乏精确地空间参考视频的方法，通过低带宽网络访问视频数据的不可访问性和不合适性，迄今为止都阻碍了空间视频的大规模使用。

　　但是，随着网络技术的改进和更便宜，更准确的收集和存储系统的出现，这些问题已不再是一个问题。正如本文介绍的最新评论所强调的，这在学术研究和商业系统开发的扩展中得到了证明。因此，已经表明，空间视频在GIS中起着更大的作用，尚待进行许多不同的研究方向。视频和GIS的许多不同研究级别，从对GIS视频的更高层次的语义理解，到目前尚不存在的传感器数据集成的更广泛应用的基础标准化。为了应对这些多样化的挑战，本文为讨论和定义空间视频和GIS的作用定义了更广阔的背景。通过示例介绍了一些固有的问题并介绍了解决方案，这些示例包括如何在空间上参考视频，如何在GIS中最好地对视频建模，如何在GIS中使用视频以及如何在GIS中使用GIS进行分析/细分。本文的后面各节讨论了这最后三点，其中以视点的形式介绍了一种更完整的建模方法，然后介绍了许多描述和分割空间视频的地理空间分析方法。虽然“观点”表格是基于当前的GIS-视频集成标准方法学构建的（Lewis 2006），但如何将GIS地理空间功能应用于视频数据仍有很多工作要做。空间视频可能会在GIS操作中扮演越来越重要的角色，从而扩展了点，线，面积和体积的常规数据类型分类的用途。因此，本文描述并鼓励有关标准GIS操作如何与空间视频一起工作的更多讨论。

致谢

参考文献

A9 Maps, 2006. Business shop front spatial image location and direction system. Internet

Source. Available at: http://maps.a9.com/?

Benedikt, M.L., 1979. To take hold of space: isovists and isovist fields. Environment and

Planning B, 6, 47-65.

Bormans, J. & Hill, K., 2002. MPEG-21 Overview v.5. Internet Source. Available at:

http://www.chiariglione.org/mpeg/standards/mpeg-21/mpeg-21.htm.

Chen, B. et al., 2009. Integrated Videos and Maps for Driving Directions. In User

Interface Science and Technology (Proceedings of UIST 2009. Victoria, BC.

Cho, P., 2007. 3D Organization of 2D Urban Imagery. In Applied Imagery Pattern

Recognition Workshop - 2007. pp. 3-8.

ESRI, 2003. Spatial Data Standards and GIS Interoperability. New York, (January).

Available at: http://www.esri.com/library/whitepapers/pdfs/spatial-data

standards.pdf.

EchoStorm, 2003. Video Data Management and Integration Technologies. Internet

Source, 2009. Available at: http://www.echostorm.net/.

Foy, S. et al., 2006. Inertial Navigation Sensor and GPS integrated for Mobile mapping.

In GISRUK 2006. NUIM, Maynooth, Ireland: GIS Research UK and Ireland.

Francica, J., 2009. GEOINT 2009: From Intel to Imaging, But Full Motion Video Stole

the Show. Internet Source. Available at:

http://www.directionsmag.com/printer.php?article_id=3319.

Google, 2007. Google Street View. Internet Source, 2008. Available at:

http://maps.google.com.

Hartley, R. & Zisserman, A., 2003. Multiple View Geometry in Computer Vision 2 ed.,

Cambridge University Press.

Hirose, M., Watanabe, S. & Endo, T., 1998. Generation of wide-range virtual spaces

using photographic images. In Atlanta, GA, USA: IEEE, pp. 234-241.

Hwang, T. et al., 2003. MPEG-7 metadata for video-based GIS applications. In IGARSS

2003. 2003 IEEE International Geoscience and Remote Sensing Symposium.

Proceedings (IEEE Cat. No.03CH37477). IEEE, pp. 3641-3643.

Immersive Media, 2006. Immersive Video GIS Viewer. Internet Source, 2009. Available

at: http://www.immersivemedia.com/#102.

Intergraph, 2008. GeoMedia Motion Video Analyst. Internet Source. Available at:

http://www.intergraph.com/sgi/downloads.aspx?assetid=DFI-US-0018A-ENG.

Joung, Y., Kim, K. & Kang, K., 2003. The Development of MPEG-7 Interface over

MPEG-4. In IEEE International Conference on Consumer Electronics, 2003.

IEEE, pp. 276-277.

Kawasaki, H. et al., 1999. Automatic modeling of a 3D city map from real-world video.

In ACM international conference on Multimedia. Orlando, Florida, United States:

ACM Press, pp. 11-18.

Kiger, B., 1972. Videography, What Does It All Mean? , 9. Available at:

http://www.experimentaltvcenter.org/history/pdf/kigercinematography_2728.pdf.

Kim, K. et al., 2003a. GEOVIDEO: The Video Geographic Information System as a first

step toward MEDIAGIS. In ASPRS 2003. Anchorage, Alaska: American Society

for Photogrammetry and Remote Sensing, pp. 1-6.

Kim, K. et al., 2003b. The interactive geographic video. In IGARSS 2003. 2003 IEEE

International Geoscience and Remote Sensing Symposium. Proceedings (IEEE

Cat. No.03CH37477). Ieee, pp. 59-61.

Lawlor, M., 2008. Valiant Angel, Innovative Technologies Help Create Joint Solutions at

the Speed of War. Internet Source. Available at:

http://www.afcea.org/signal/articles/anmviewer.asp?a=1719&print=yes.

Lewis, J., Grindstaff, G. & Whitaker, S., 2006. Open Geospatial Consortium Geo-Video

Web Service. , 1-36. Available at:

http://portal.opengeospatial.org/files/?artifact_id=12899.

Lippman, A., 1980. Movie-Maps: An Application of the Optical Videodisc to Computer

Graphics. ACM SIGGRAPH Computer Graphics, 14(3), 32-42.

Livingstone, D., Raper, J. & McCarthy, T., 1999. Integrating aerial videography and

digital photography with terrain modelling: an application for coastal

geomorphology. Geomorphology, 29(1-2), 77-92.

MPEG7, 2006. MPEG-7 Overview. Internet Source, 2008. Available at:

http://www.chiariglione.org/mpeg/standards/mpeg-7/mpeg-7.htm.

McCarthy, T., 1999. Integrating aerial video with GIS, PhD. Thesis.

McLoughlin, S.D. et al., 2005. Classification of road sign type using mobile stereo vision.

Proceedings of SPIE, 5823, 133-142.

McLoughlin, S.D. et al., 2008. Mobile mapping for the automated analysis of road

signage and delineation. Intelligent Transport Systems, IET, 2(1), 61-73.

Microsoft, 2005. Live Search Maps. Internet Source, 2008. Available at:

http://maps.live.com.

Milosavljević, A., Dimitrijević, A. & Rančić, D., 2010. GIS augmented video

surveillance. International Journal of Geographical Information Science, In

Press.

Navarrete, T. & Blat, J., 2002. VideoGIS: Segmenting and indexing video based on

geographic information. In 5th Agile Conference on Geographic Information

Science. Palma, Balearic Islands, Spain, pp. 1-7.

Nobre, E.M. & Camara, A.S., 2001. Spatial Video, Exploring Space Using Multiple

Digital Videos. In 6th Eurographics Workshop on Multimedia. Lisbon:

Environmental Systems Analysis Group, New University of Lisbon.

O'Connor, N.E. et al., 2008. A content-based retrieval system for UAV-like video and

associated metadata. Proceedings of SPIE, 6946, 69460I-69460I-10.

OGC OWS-3, 2005. Open Geospatial Consortium, Open Web Services phase 3. Internet

Source, 2008. Available at: www.opengeospatial.org/projects/initiatives/ows-3.

OMG, 1984. Motion Capture and Visual Geometry Systems and Services Supplier.

Oxford Media Group, 2009. Available at:

http://www.omg3d.com/html/company.html.

Pintaric, T., Neumann, U. & Rizzo, A., 2000. Immersive Panoramic Video, Los Angeles,

California, USA. Available at:

http://graphics.usc.edu/cgit/publications/publications.php.

Qiang, L. et al., 2004. A scalable VideoGIS system for GPS-guided vehicles. Signal

Processing: Image Communication, 20(3), 205-218.

Red Hen, 2005. Spatial Video hardware and software website. Internet Source, 2005.

Available at: http://www.redhensystems.com.

RouteMapper, 2007. Spatial Video solutions for transportation sector. Internet Source.

Available at: www.routemapper.net.

Rzhanov, Y., Linnett, L.M. & Forbes, R., 2000. Underwater video mosaicing for seabed

mapping. In Image Processing, 2000. Vancouver, BC, Canada: Image Processing,

2000, pp. 224-227.

Turner, A. et al., 2001. From isovists to visibility graphs: a methodology for the analysis

of architectural space. Environment and Planning B: Planning and Design, 28(1),

103-121.

Vincenty, T., 1975. Direct and Inverse Solutions of Geodesics on the ellipsoid with

application of nested equations. Survey Review, 23(176), 88-93.

Wagner, R., 2009. Intergraph Introduces Motion Video Exploitation Solution for

Increased Real-Time Awareness and Actionable Intelligence. Internet Source.

Available at: http://www.intergraph.com/assets/pressreleases/2009/10-19-

2009.aspx.

Worboys, M. & Duckham, M., 2003. Uncertain Viewsheds. In GIS A Computing

Perspective. CRC Press, p. 355.

Ó Riain, G. & McCarthy, T., 2006. Innovative Data Capture and Presentation Techniques

in support of the EU Environmental Noise Directive. Available at:

http://erc.epa.ie/safer/resource?id=6d6b6300-d163-102c-9c91-0a68ec663af0.

posted @ 2020-10-09 18:07 yiwenzhang 阅读(1325) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

yiwenzhang

空间视频和GIS

1.介绍空间视频

2.空间视频挑战

2.1 空间视频建模方法

2.1.1 以视频为中心/远程感应的方法：

2.1.2 以GIS为中心的方法：

2.2 更广泛的研究目标

3.空间视频和GIS

3.1 商业应用

3.2 学术应用

3.3 混合动力发展

4.寻求通用空间视频使用的解决方案

5.视频地理空间分析

5.1视点

5.2视图中的多边形

5.3专题报道

5.4视点精度

6.结论

公告

3.3 混合动力发展　　

5.2视图中的多边形