明陞m88【泡泡一分钟】概率语义SLAM三维对象的变

发布时间:2019-11-22 10:02

  我们提出了一个完整概率语义SLAM的贝叶斯对象观测模型。最近关于物体检测和特征提取的研究对于场景理解和3D建图变得很重要。然而,物体的3D形状太复杂,无法形成概率观测模型;因此,很少使用贝叶斯模型推断目标的方向和姿态。此外,当配备RGB单目相机的机器人仅观察物体单个视角的投影时,大量的3D形状信息会被丢弃。由于这些限制,使用3D对象形状体积要素的语义SLAM和与视点无关的闭环处理非常具有挑战性。为了能够完整地形成概率语义SLAM,我们对具有易处理分布的3D对象的观察模型进行了近似处理。此外,为了利用观察到的单一视图,我们还估计了物体的2D图像的变分似然性。为了评估所提出的方法,我们进行了姿态和特征估计,并证明自动闭环可以无缝工作,无需在各种环境中使用额外的回路检测器。

  图1 在所提出的方法中,假设观察到的视图数据是RGB图像。为了逼近目标观测模型,我们训练变分自动编码器来实现目标生成模型。从RGB单视图估计3D对象的编码特征。使用近似观察模型,可以完成SLAM配方和优化。

  图2 用于对象生成模型的贝叶斯模型的概述。(a)假设3D对象形状sf生成涉及类别lc,实例li和相对于观察者的对象方向v。v可以用方向的任何表示建模,例如四元数或旋转矩阵。(b)根据每个元素的潜变量用于变分似然。通过构建附加网络,还从训练数据中学习lc和li的引物。由于v在我们的情况下是一个实数值,我们简单地让v为方向先验的平均值。(c)从观察到的单一视图推断出拟议观测模型的变分可能性。根据这种策略,我们可以利用RGB单视图而无需直接扫描对象的整个形状。生成模型用实线表示,虚线表示变分似然估计。对于先验,与θ和φ同时学习,θ和φ是生成模型的参数。

  图3 本文提出的网络架构。用于变分似然估计的编码器部分是使用在YOLOv2中使用的darknet-19构造的。我们在darknet-19的末尾添加了一个额外的2D卷积层,以便编码器成为一个完全卷积的网络。解码器由密集层和若干3D卷积转置层组成。用VAE训练的现有网络同时由完全连接的层组成。本文提出网络的端到端训练是可以实现的。

  图4 拟议系统概述。基本上我们估计每个序列的视觉测距。对于每个关键帧,同时执行对象检测和特征编码。使用编码特征和近似观察模型,进行考虑物体形状和方向的SLAM优化。为了解决完整的SLAM公式,只需要使用经过训练的编码器的编码过程。然而,可以在任何时间获得每个观察对象的完整形状重建。

  图5 来自SLAM的估计机器人轨迹的比较。明陞m88,从第一行到最后一行:分别为KITTI 00、05和06序列的结果。(a-c):视觉里程计,仅具有形状特征的估计结果,以及具有形状和方向的结果。由于KITTI数据集中的大多数对象都是汽车类别并且彼此具有相似的形状,因此仅具有形状特征的SLAM几乎不执行完整的闭环。从图像网络预训练的darknet-19和vggnet获得的特征的结果未显示,因为它们与视觉测距结果没有显着差异。