1、GS-Planner

A Gaussian-Splatting-based Planning Framework for Active High-Fidelity Reconstruction(浙大高飞团队)

一种基于高斯溅射的主动高保真重建规划框架

​ 图1:模拟超市场景的主动重构全过程。我们将主动高保真重建系统部署在带有RGB-D传感器的模拟四旋翼飞行器上。彩色曲线显示了无人机的执行轨迹。我们演示了重建结果,包括整个渲染场景和在三个视图中渲染的细节。

摘要:

​ 主动重构技术使机器人能够自主采集场景数据,实现全覆盖,将用户从繁琐、耗时的数据采集过程中解脱出来。

​ 然而,现有方法的设计基于不合适的场景表示,重建结果不现实或无法在线评价质量。由于显式辐射场技术的最新进展,在线主动高保真重建已经成为可能。在本文中,我们提出了GS-Planner,一个利用三维高斯飞溅进行主动高保真重建的规划框架。通过改进3DGS对未观测区域的识别,在线评价3DGS地图的重建质量和完整性,指导机器人。然后设计了一种基于采样的主动重建策略,探索未观测区域,提高重建的几何和纹理质量

​ 为了建立一个完整的机器人主动重构系统,我们选择四旋翼作为机器人平台,因为它具有很高的敏捷性。然后利用3DGS设计安全约束,在3DGS地图中生成四旋翼导航的可执行轨迹。为了验证我们方法的有效性,我们在高度逼真的模拟场景中进行了广泛的实验和消融研究。

1、介绍

​ 主动高保真3D重建涉及机器人完整、高效、安全地创建物体或场景的准确、详细和逼真的数字表示。

这种技术保持了复杂的视觉保真度,在场景检查、虚拟游戏开发和文化遗产保护方面具有重要的实用价值。

选择合适的场景表示是主动高保真3D重建机器人系统的基础,具有以下关键要求:

  • 精度和真实感:高保真重建要求场景表示能够准确地表示几何和纹理信息,从而更加真实地描绘场景。

  • 实时融合:在主动重建过程中,逐步收集新的场景信息。场景表示需要实时融合新采集的数据来指导机器人重建,并为机器人安全导航提供占用体积信息

  • 在线评估:为了引导机器人进行主动重建,场景表示需要在线评估重建质量和完整性。

image-20241127173753759

图2:主动高保真重建系统概述。利用3DGS作为场景表示,可以实时反馈未观测到的区域以及建成地图的几何和纹理信息,用于在线重建质量和完整性评估。提出的主动重构策略引导机器人收集新的场景信息,构建完整的高保真3DGS地图。

​ 质量评估应包括几何和纹理两个方面。完整性评估要求表示能够识别场景中观察到和未观察到的部分。

​ 然而,传统主动重建中常用的网格地图(如文献[1]–[4]所述)只能描述粗略的结构,且缺乏颜色和纹理信息。网格和表面点云的融合与优化由于其固有的复杂性而面临诸多挑战。最近兴起的高保真场景表示方法——神经辐射场(NeRF) [5],尽管具有优异的表现,但通常需要耗费大量的训练时间和资源进行渲染,这使得在线评估变得困难。

3D 高斯泼溅 (3DGS) [6] 是最近在显式辐射场领域中出现的一项变革性技术,完全满足上述需求,并具有以下具体优势:

(a) 高视觉质量与精确几何:3DGS 使用存储丰富纹理和显式几何信息的高斯点对场景进行表示,保证了高视觉保真度与精确几何信息。更重要的是,得益于可学习的三维高斯分布,3DGS 保留了连续体积辐射场的特性,这对高质量图像合成至关重要。

(b) 高效融合:由于采用显式表示,3DGS 的视锥裁剪策略和自适应高斯密度化方法使其能够高效增量式地融合新观察到的数据,在质量上与神经网络方法相当,同时表现出优越的效率。

(c) 快速渲染:3DGS 的高度并行“泼溅”光栅化技术,以及避免了空白空间渲染所带来的计算开销,使其能够以高帧率实现高质量渲染,从而支持在线评估。

​ 由于 3DGS 的优异特性,我们提出了一种基于高斯泼溅的规划框架(GS-Planner),旨在实现主动高保真重建,并通过实时质量和完整性评估指导机器人完成重建任务。具体来说:

​ 首先,为了在重建过程中评估已构建的 3DGS,我们设计了重建完整性和质量的评估指标。现有的 3DGS 仅能表示占据空间,这使得完整性评估变得困难。为高效识别场景中未观测到的部分,我们将未知体素集成到基于泼溅的渲染过程中

​ 其次,我们设计了一种基于采样的主动探索策略,用以引导机器人探索未观测区域,提升 3DGS 地图的几何和纹理质量。

​ 最后,为了构建完整的机器人主动重建系统,我们选择四旋翼无人机作为机器人平台,以利用其高机动性。通过利用 3DGS 的可微分特性和显式表示属性,我们设计了一种基于 3DGS 地图的可微分避障代价函数。此外,我们构建了一个自主导航框架,能够生成无碰撞且动态可行的四旋翼轨迹

​ 总体而言,基于先进的稠密 3DGS SLAM 系统 SplaTam [7],我们提出了 GS-Planner,这是一个以 3DGS 作为场景表示的主动高保真重建规划框架。

总结如下:

  1. 我们提出了第一个基于 3DGS 的主动 3D 重建系统,支持在线评估。
  2. 我们设计了用于重建完整性和质量的评估指标,并将其应用于基于采样的自主重建框架。
  3. 我们提出了一种基于 3DGS 的安全约束,并构建了 3DGS 地图中的轨迹优化框架。
  4. 我们通过大量模拟实验验证了所提系统的有效性。

2、相关工作

A. 高保真重建

为了实现高保真重建,研究者采用了多种场景表示方法,例如平面、网格和表面点云。近年来,神经辐射场(NeRF) [5] 凭借其卓越的逼真渲染能力在该领域备受关注,主要可分为以下三种类型:

  1. 基于 MLP 的方法 [8]:此方法提供了可扩展且内存高效的地图表示,但在较大场景中面临灾难性遗忘的问题。
  2. 混合表示方法 [9, 10]:结合了隐式多层感知机(MLP)和结构化特征的优点,显著提升了场景的可扩展性和精度。
  3. 显式方法 [11]:直接将地图特征存储在体素中,无需 MLP 支持,从而实现了更快的优化速度。

​ 尽管 NeRF 在逼真重建中表现出色 [12],但其方法计算开销较大 [13]–[15]。NeRF 通常需要长时间训练和大量渲染资源,这与实时将模型反馈至主动重建决策循环的需求相矛盾。

​ 与基于隐式特征表示的 NeRF 不同,3D 高斯泼溅(3DGS) [6] 通过其完全显式的表示方法以及新颖的可微分基于点的泼溅技术,实现了新视角的实时渲染。该技术已应用于以 3DGS 作为场景表示的在线稠密 SLAM 系统中,并通过 RGB-D 图像对场景进行重建 [7, 16]。


image-20241127214603780

图 3 说明了完整性评估的过程:

(a) 部分重建的场景。仅在观测视点处收集了场景信息。彩色网格显示了不同位置处的完整性增益,评估高度为 $z=1m$​。
(b) 两个候选视点的位置,其中 z轴方向与相机光轴对齐。
(c) 两个候选视点的完整性增益 360 度全景图。通过生成完整性增益的 360 度全景图,可以辅助确定后续的最佳视点偏航角方向。


B. 主动重建系统

主动重建系统将数据采集纳入决策循环,利用结果进行评估,从而引导机器人进一步采集数据。根据 3D 模型的表示方式,这些方法可分为以下几类:

  1. 基于体素的方法 [1]–[4]:此类方法旨在重建常用的网格地图,这是一种轴对齐且紧凑的空间表示方式。
  2. 基于表面的方法 [17]–[19]:采用一组表面对环境建模。然而,这些方法只评估重建的完整性,忽略了颜色和纹理信息。
  3. 基于隐式神经表示的方法:例如 NeurAR [12],通过学习神经不确定性进行视点规划。但由于隐式神经表示的计算开销较大,NeurAR 在视点切换之间的模型优化和不确定性评估需要 50-120 秒,导致机器人运行频繁且长时间暂停。

3D 高斯泼溅 (3DGS) 作为一种新兴方法,非常适合作为主动高保真重建的场景表示。然而,目前尚未有基于其卓越特性设计的主动重建机器人系统。

3、系统概述

主动高保真重建要求机器人访问一系列视点,采集场景信息并构建逼真的数字化表示。正如图 2 所示,所提出的主动重建系统使用 3DGS 作为场景表示,机器人能够通过对应的观测姿态采集 RGB-D 图像

​ 借助 3DGS 高效融合和实时渲染的优势,我们对未来可能的视点进行在线评估。这样的在线评估反馈指导 主动视点规划模块(详见第 IV 节),生成一系列安全且具有高信息增益的视点

​ 为了将机器人导航至选定的视点,我们进一步提出了一个具有 3DGS 地图安全约束的自主导航框架(详见第 V 节)。

4、基于 3DGS 地图的主动视点规划

​ 在本节中,我们首先介绍 3DGS 表示方法(详见 IV-A 节)。接着,提出了 完整性评估方法(详见 IV-B 节)和 质量评估方法(详见 IV-C 节),分别用于捕捉覆盖不足和质量较差的区域。随后,我们设计了一种 基于采样的主动视点规划算法(详见 IV-D 节),以引导机器人重建未观测区域并提升构建地图的质量

A. 3DGS 地图表示

​ 我们使用现有的 SplaTam SLAM 方法 [7] 进行 3DGS 的实时重建。场景被表示为一组各向同性的 3D 高斯泼溅 (3D Gaussian Splatting)。每个 3DGS 定义为以下参数:

  • 中心位置 $ \mu \in \mathbb{R}^3 $,
  • 半径 $ r \in \mathbb{R} $,
  • RGB 颜色 $ c \in \mathbb{R}^3 $,
  • 不透明度 $ o \in \mathbb{R} $。

一个点 $ x \in \mathbb{R}^3 $ 的不透明度函数 $ \alpha(x, o) $ 由每个 3DGS 计算,公式如下:

$$
\alpha(x, o) = o \exp\left(-\frac{|x - \mu|^2}{2r^2}\right).
$$

公式描述了点 $ x $​ 相对于 3DGS 的不透明度分布,使用高斯函数表征了空间中的衰减特性。


image-20241128193759071

图4:质量评估的一个实例。(a).输入RGB图像与渲染RGB图像之间RGB纹理损失的生成。(b).输入深度图像与渲染深度图像之间深度损失的生成。(c). RGB损失与深度损失的加权和。(d).我们将质量增益投影到世界框架中的3D网格中进行存储。


​ 为了优化3D高斯参数以表示场景,我们需要以可微分的方式将它们渲染成图像。最终渲染的颜色可以被公式化为覆盖像素的N个有序点的alpha混合,
$$
C_{\text{pix}} = \sum_{i=1}^{N} c_i \alpha_i \prod_{j=1}^{i-1} (1 - \alpha_j) \tag{2}
$$
我们以同样的方式渲染深度
$$
D_{\text{pix}} = \sum_{i=1}^{N} d_i \alpha_i \prod_{j=1}^{i-1} (1 - \alpha_j) {\tag{3}}
$$
其中 $d_i$表示第$ i$个3D高斯中心的深度,这等于其在相机坐标系统中中心位置的z坐标。

这两个公式描述了如何通过alpha混合来计算像素的颜色和深度。

  1. 解释:

    这两个公式描述了如何通过alpha混合来计算像素的颜色和深度。

    1. **颜色计算($ C_{pix} $**):

      • $ c_i $ 是第$ i $个点的颜色。
      • $ \alpha_i $ 是第$ i $个点的透明度(alpha值)。
      • 公式中使用了乘积符号 $\prod$ 来表示从$ j=1 $到$ i-1$的所有 $ 1 - \alpha_j $ 的乘积。这意味着每个点的颜色贡献会根据前面所有点的透明度进行衰减。
    2. **深度计算($ D_{pix} $**):

      • $ d_i $ 是第 $i$个点的深度。
      • 同样地,$ \alpha_i $ 和 $ \alpha_j $ 在这里也用于控制深度的累积效果。

    这些公式的目的是模拟光线穿过多个半透明层的效果,从而得到最终的像素颜色和深度。

B. 完整性评估

​ 为了支持场景的全面覆盖,我们引入了候选视点的完整性评估。此评估需要识别未观测的空间。然而,现有的 3DGS 仅保存有关已占用体积的信息。为了解决这一限制,我们维持一个体素地图来表示未观测的体积,并将其整合到基于泼溅的渲染过程中。这样,我们可以在 3DGS 渲染过程 中高效地计算与模型一致的像素级完整性增益。

​ 具体而言,给定一组 3D 高斯泼溅一个候选视点,首先所有高斯点将根据它们的深度进行排序。通过排序后的高斯点,可以高效地通过 α-合成 渲染深度图,即按照顺序在像素空间中将每个高斯点的 2D 投影泼溅渲染。在这个渲染过程中,我们可以判断在相邻高斯点之间是否存在未观测区域。

image-20241128211907196

​ 图5: 三维完整性评估的二维插图

​ 给定一组三维高斯分布和候选视点,我们可以获得未观察区域内的高斯分布。通过基于平铺的渲染,我们可以获取未观察区域。未观察区域的权重由透射率确定,这等同于沿光束积累的高斯分布的不透明度。

左侧图解:
图中展示了一个锥形结构,代表从某个视角看到的场景。蓝色和紫色的椭圆形状代表三维高斯分布,它们分布在不同的深度位置。不同颜色的区域表示不同透射率的区域,蓝色表示低透射率(高不透明度),红色表示高透射率(低不透明度)。黑色虚线框表示未观察到的区域。
右侧图解:
右侧图展示了经过基于平铺的渲染后,未观察到的区域是如何被识别出来的。每个区域都被赋予了一个透射率权重,这个权重是由沿光束方向累计的高斯分布的不透明度决定的。

​ 利用维护的未观察体素。并且对应于每个像素的未观察区域的体积可以通过基本视锥体公式近似计算。此外,考虑到高斯分布具有不同的不透明度,我们通过对未观察区域应用透射率权重来评估可见性。如图5所示,最后我们得到了每个像素的完备性信息增益作为 $ V_{pix} $。
$$
V_{pix} = \sum_{i=1}^{n} V_i \prod_{j=1}^{m_i} (1-\alpha_j) \tag{4}
$$
​ 其中 $ n $ 是沿着光束的未观察体积的数量,$ m_i $ 是与相关3D高斯分布相关的未观察体积数量,$ V_i $ 是第 $ i $ 个高斯分布之前的未观察体积,$\prod_{j=1}^{m_i} (1-\alpha_j)$ 是第 $ i $ 个高斯分布之前的透射率权重。对于特定情况,$\prod_{j=1}^{m_i} (1-\alpha_j)$ 是透射率权重。 如图6所示,我们将未观察体积 $ V_i $​ 近似为其视锥体体积:
$$
V_i = \frac{1}{3}(S_{in,i} + \sqrt{S_{in,i} S_{out,i}} + S_{out,i})(d_{out,i} - d_{in,i}) \tag{5}
$$
​ 其中 $ S_{in,i} $ 和 $ S_{out,i} $ 分别是进入和离开第 $ i $ 个体素的横截面积,$ d_{in,i} $ 和 $ d_{out,i} $ 分别是进入和离开第 $ i $ 个体素的距离。

解释: 这些公式是用来计算未观察区域的体积和完备性信息增益的。具体来说:

  1. 公式(4) 计算每个像素的完备性信息增益 $ V_{pix} $。它是一个累加的过程,其中每一项 $ V_i $ 都是对应于一个未观察体积的贡献,然后乘以一个透射率权重 $\prod_{j=1}^{m_i} (1-\alpha_j)$。这里的 $\alpha_j$ 是指第 $ j $ 个高斯分布的不透明度。
  2. 公式(5) 给出了单个未观察体积 $ V_i $ 的近似计算方法。它是基于视锥体的体积公式,其中 $ S_{in,i} $ 和 $ S_{out,i} $ 分别是进入和离开第 $ i $ 个体素的横截面面积,$ d_{in,i} $ 和 $ d_{out,i} $ 是相应的距离。这个公式假设未观察体积可以近似看作一个视锥体的一部分。
  3. 通过这种方式,研究者们能够量化未观察区域的体积,并据此评估整个场景的完备性。这种评估对于理解数据采集的充分性和规划后续的数据收集策略非常重要。

​ 其中 $d_{\text{in,}i}$ 和 $d_{\text{out,}i}$ 分别代表第 $i$ 个未观测体积的进入和退出的深度。$S_{\text{in,}i}$ 和 $S_{\text{out,}i}$ 代表 $V_{i}$ 的底面积,它们等于在深度 $d_{\text{in,}i}$ 的进入平面上的像素的投影面积,以及深度 $d_{\text{out,}i}$ 的退出平面。$S = \frac{d^2}{f^2}$,其中 $f$ 是相机的焦距。

image-20241128221110925

​ 图6:未观测体积计算的三维图示。

​ 由于我们将计算集成到基于喷溅的渲染中,因此该计算过程是并行的和高效的。为了直观地说明完备性评价,我们给出如图3所示的一个实例,说明完备性评价对视点选择的指导作用。

C. 质量评估

​ 质量评估旨在识别重建区域中纹理和几何精度较差的区域。这种评估包括两个步骤:损失缓存和损失重投影。

损失缓存: 利用3DGS的实时渲染,计算重建模型与实际场景之间的差异非常直接。如图4所示,我们将损失 $L$ 从图像空间投影到世界空间,并将损失缓存到已占用的体素中。具体来说,**$L$ 是深度和颜色渲染的 $L_1$ 损失的加权和:**
$$
L = L_1(D) + \lambda_C L_1(C), \tag{6}
$$
其中 $\lambda_C$​ 是权重系数。

损失重投影: 给定一个候选视点,我们通过进行360度光线追踪,将缓存在已占用体素中的损失重投影到图像空间。损失指示纹理和几何质量信息的增益。 根据第IV-B节和第IV-C节,我们最终通过计算给定视点的完整性和质量的加权和,获得一个总体的360度信息增益。然后我们使用滑动窗口求和来找到每个视点的最佳偏航角。

D. 使用视图库进行视图规划

​ 为了使机器人能够以高质量完成场景的全重建,需要生成一系列具有位置和偏航角的合理视点用于顺序导航。我们设计了一种基于采样的视图规划方法结合视图库 $VL$ 来生成并缓存视点以供评估。完整的视图规划算法列于算法 1 中。

​ 具体而言,我们首先从视图库 $VL$ 中获取附近缓存的视点 $V_{\text{near}}$,其中 $VL$ 存储了未访问视点及其信息增益(第 1 行)。这些信息增益会根据新的传感器数据进行更新(第 2-4 行)。我们使用 RRT* 算法的扩展部分对潜在的未来视点 $V_c$ 进行采样(第 5 行)。离障碍物过近的采样视点将被删除并通过上述滑动窗口方法确定每个视点的最优偏航角。$V_{\text{near}}$ 将被添加并连接到采样过程中扩展的树中

​ 通过使用 3DGS 在 $V_c$ 的每个视点进行实时渲染,我们高效计算其信息增益(第 6 行)。信息增益低于阈值 $g_{\text{lb}}$ 的视点将被移除(第 8-12 行),而那些信息增益较高且相较于其他视点较为新颖的视点将被缓存到 $VL$ 中(第 13-15 行)。最佳分支上的节点将被选为下一个局部目标(第 19 行)。此外,如果没有有效的附近候选视点,局部目标将从 $VL$ 中选择(第 21 行)。当 $VL$ 为空时,重建过程完成

5、在3DGS地图中的轨迹优化

​ 3DGS的明确表示和精确几何形状使得使用3DGS地图进行安全的机器人导航成为可能。利用3D高斯函数的可微性,我们设计了一个与3DGS地图相关的安全约束,并将其整合到一个四旋翼飞行器轨迹优化框架中

A. 使用3DGS的安全约束

​ 在3DGS中,高斯函数以不透明度定义,如IV-A节所述。不透明度衡量了光线穿过物体时被阻挡的概率。我们假设终止光线的概率为终止质量粒子的概率提供了强烈的指示。因此,对于机器人姿态 $p$ 和具有不透明度 $o$ 的某个高斯函数,我们制定了一个机会约束以确保安全:

$$
\alpha(p, o) < c_{\text{thr}}, \tag {7}
$$
​ 其中 $\alpha(\cdot)$ 表示在方程1中定义的不透明度函数,$c_{\text{thr}}$ 表示碰撞概率的阈值。当不透明度 $o=1$ 时,$c_{\text{thr}}$ 等于从其均值 $\mu$ 处距离 $(3r+R_{\text{robot}})$(3σ规则)的 $\alpha(\cdot)$ 的值:

$$
c_{\text{thr}} = \exp\left(-\frac{3r+R_{\text{robot}}}{2r^2}\right), \tag{8}
$$
​ 其中 $R_{\text{robot}}$ 是几何边界球半径。**直观地说,这意味着我们希望轨迹上的每个点都与高斯均值点的距离大于安全半径 $R_s$**。$R_s$ 由高斯的 $o$ 加权,当 $o=1$ 时等于 $(3r+R_{\text{robot}})$。

对于后续的轨迹优化,我们为轨迹上的每个点 $p$ 提供了相应的避免碰撞成本

$$
\mathcal{J}c(p) = \sum{i=0}^{k} f(\alpha_i(p, o_i) - c_{\text{thr}}), \tag {9}
$$
​ 其中 $f(x) = \max(x, 0)^3$,$k$ 是3DGS地图中附近高斯元素的数量。在优化过程中,不同不透明度高斯应用于轨迹上的点的避免碰撞成本如图7所示。这种可微成本有利于后续轨迹优化,其解析梯度写为:

$$
\frac{\partial \mathcal{J}c(p)}{\partial p} = \sum{i=0}^{k} 3(\alpha_i(p) - c_{\text{thr}})^2 o_i \exp\left(-\frac{|p-\mu_i|^2}{2r_i^2}\right)\left(\frac{\mu_i - p}{2r_i^2}\right) \tag {10}
$$

B. 轨迹优化公式

image-20241129112155366

图7:在具有不同不透明度高斯的轨迹上应用的避免碰撞成本。希望轨迹上的每个点都与高斯均值点的距离大于安全半径 $R_s$。$R_s$ 由不同高斯的不透明度 $o$​ 加权。


​ 为了生成四旋翼无人机的全状态无碰撞且动态可行的轨迹,我们使用MINCO方法作为轨迹表示,并在具有微分平坦输出的降维空间中优化时空轨迹 $$z=[p^{T},\phi]^{T}\in \mathbb{R}^{3}\times SO(2),\text{ 其中 }\phi\text{ 是欧拉偏航角和位置 }p=\left[p_{x}, p_{y}, p_{z}\right]^{T}.$$ 我们进一步定义平坦输出及其导数 $z^{[s-1]}\in \mathbb{R}^{ms}$ 为 $z^{[s-1]}:=\left(z^{T},\dot{z}^{T},\ldots, z^{(s-1)^{T}}\right)^{T}$。为了生成轨迹 $z(t):[0, T]\mapsto \mathbb{R}^{m}$,我们制定轨迹优化问题为

$$
\min_{z, T}\mathcal{J}{E}=\int{0}^{T}\left|z^{(s)}(t)\right|^{2} dt+\rho T, \tag{11a}
$$

$$
\text{约束条件:}\quad z^{[s-1]}(0)=\bar{z}_s,\quad z^{[s-1]}(T)=\bar{z}_e, \tag{11b}
$$

$$
\left|p^{(1)}(t)\right|\leq v_{\max},\forall t\in[0, T], \tag{11c}
$$

$$
\left|p^{(2)}(t)\right|\leq a_{\max},\forall t\in[0, T],
$$

$$
\left|\phi^{(1)}(t)\right|\leq\phi_{\max},\forall t\in[0, T], \tag{11e}
$$

$$
\alpha_i\left(p, o_i\right)<c_{\text{thr}},\forall i\in{1,\ldots, k},\forall t\in[0, T]. \tag{11f}
$$

​ 其中方程 11a权衡了平滑性和激进性,$\rho$ 是时间正则化参数。这里我们采用 $s=3$ 进行急动度积分最小化。方程 11b 是起始和结束时间的边界条件。$\bar{z}{s}$ 和 $\bar{z}{e}$ 分别是初始和结束状态。方程 11c、方程11d和方程11e 是动态可行性约束,其中 $v_{\max}$、$a_{\max}$ 和 $\phi_{\max}$ 分别是速度、加速度和偏航率限制。方程 11f 是定义在方程7中的安全约束。$\alpha_{i}(\cdot)$ 是具有不透明度 $o_{i}$ 的第 $i$ 个高斯元素的不透明度函数。

​ 这个问题可以转化为一个无约束优化问题[20],写为:

$$
\min_{z, T} \mathcal{J}{E}+\int{0}^{T} \mathcal{J}_{G} dt, \tag{12}
$$

​ 其中 $\mathcal{J}{G}$ 是对应于不等式约束方程 11c、方程11d 和方程11f 的惩罚函数。并且 $J_G$ 包括在方程10中定义的 $\mathcal{J}{C}$​​。通过解析梯度,这个问题随后通过L-BFGS[21]有效解决。


image-20241129151533117

图8:使用3DGS渲染和基于体素的光线投射的完整性评价的定性比较。

​ 当机器人到达当前视点时,由于其视角倾斜,对左侧前架子上的物品观察不完整。使用3DGS渲染的评估具有高保真度和高效率,而使用基于体素的光线投射的评估则粗糙且耗时。精细的完备性评价可以正确引导机器人收集新的信息进行改进。


6、实验

A. 实现细节

​ 我们在一台配备有2.90GHz Intel i7-10700 CPU和NVIDIA RTX 3090 GPU的桌面电脑上运行我们的主动重建系统。另外,一台配备有2.50 GHz AMD Ryzen 9 7945HX和NVIDIA GeForce RTX 4080笔记本GPU的笔记本电脑被用来执行用Unity开发的高保真模拟。这两台设备通过有线网络连接。在Unity中,配备有RGB-D传感器的四旋翼无人机将提供实时的RGB-D图像,分辨率为 $640 \times 480$,感知范围从 $0.5 , \text{m}$ 到 $3 , \text{m}$。我们对深度增加了2厘米的均匀分布噪声,并假设已知图像对应的相机姿态。

​ 3DGS映射模块基于SplaTam[7]构建,通过整合实时数据流格式。对于视图规划,我们在每次迭代中评估10个视点,并选择具有最佳视点的分支作为下一次迭代的种子。对于轨迹优化,机器人的半径固定为 $0.5 , \text{m}$。安全约束是通过考虑初始轨迹附近的3DGS在 $[0 , \text{s}, 1 , \text{s}]$ 的持续时间内计算的,使用轴对齐边界框(AABB)方法选择。最大速度限制为 $1.0 , \text{m/s}$,最大加速度限制为 $2.0 , \text{m/s}^2$,最大偏航率限制为 $\pi , \text{rad/s}$。

B.仿真结果及分析

​ 为了验证我们提出的方法,我们通过Unity引擎构建了一个高保真度的仿真环境。如图1所示,22.0m × 14.0m × 3.2m的超市场景中,商品种类繁多,纹理信息丰富。我们提出了整个重建过程和四旋翼飞行器的轨迹。四旋翼飞行器需要343秒才能完成整个重建。重建的细节也通过渲染的RGB和深度图像来展示。从重建结果可以看出,整个场景的重建是完整的、高保真的,保留了丰富的纹理和结构信息,具有很强的真实感。

C.比较和消融研究

​ 为了验证所提出的重建评估的有效性,我们将该方法与传统方法进行了比较,并进行了消融研究。

image-20241129174727998

​ 1)完整性评估:给定一个观点,计算信息增益的传统方法通常依赖于基于体素的射线投射[1]-[3]。这包括维护一个表示观察区域和未观察区域的网格图,并在候选视点执行光线投射以测量未观察区域的体积。然而,这种方法在表示已占用和未观察区域时受到体素分辨率的限制,并且其计算复杂性受到离散采样步骤的影响。相比之下,我们将完整性评估计算集成到splatting(一种3D渲染技术,用于将几何细节映射到表面)过程中。利用高效的高斯排序和对已占用几何形状的精确描述,我们实现了高保真度和高效率的完整性增益计算。图8展示了不同方法计算完整性增益的一个实例。表I比较了在不同体素分辨率下的计算速度,突出了我们基于3DGS的方法显著更高的效率。在实验中,基于体素的方法的光线投射步骤是体素分辨率的一半。

​ 2)质量评估:为了验证质量增益的影响,我们设计了消融实验来计算具有和不具有质量增益的候选视点的信息增益。我们进一步计算它们对应的最优偏航角度。正如图9所示,质量增益正确地指导了信息增益和最优偏航角度的生成。考虑到质量,我们的主动重建系统可以改善构建场景中几何和纹理较差的区域

​ 表格比较了不同体素分辨率下,基于体素的光线投射和我们的方法在稀疏和密集场景中的计算时间(毫秒)。结果表明,我们的方法在所有情况下都显著快于基于体素的光线投射方法,尤其是在体素分辨率较低时。


image-20241129192219234

图9:质量增益的消融。(a).仅在z = 1 m高度处的完备性信息增益。候选视点对应的最佳偏航角指向未观察到的区域。(b)同时考虑信息增益的质量和完整性。可以观察到,对于两个架子周围的视点,质量增益倾向于鼓励进一步观察架子,这仍然可以提高重建质量。


7、结论及未来工作

​ 在本文中,我们采用最近出现的3DGS技术来实现一个主动高保真重建系统。为了在线评价重建结果,作为重建策略的反馈,我们分别设计了3DGS完备性和质量评价方法。然后提出一种基于采样的主动视点规划方法,生成一系列最优视点。针对机器人在3DGS地图上的导航,设计了可微机会约束以保证安全,并形成了四旋翼轨迹优化框架。在未来的工作中,我们将把我们的系统部署到真实的机器人平台上,并尝试降低3DGS的GPU内存消耗,提高其效率。