【论文阅读】ICRA2022: Panoptic Multi-TSDFs: a Flexible Representation for Online Multi-resolution Volumetric Mapping and Long-term Dynamic Scene Consistency
Type: ICRA
Year: 2022
tag: SLAM
1. Motivation
为了和环境内其他机器人进行交互,access to volumetric and semantic maps是很重要的。而对于长时间段,环境多少都会发生变化,而构建地图时我们也应当考虑到这点
提出了一种针对变换环境的 novel representation panoptic multi-TSDFs for multi-resolution volumetric mapping
背景介绍
volumetric representations:
- occupancy
- Truncated Signed Distance Fields (TSDF)
但是这类fixed grid结构使得这一类方法耗memory 而且对于变化的东西 渲染也不灵活变化,本篇工作主要是 invert this paradigm and explore how semantic information can be leveraged to improve the modeling of geometry and achieve temporal consistency,也就是如何利用语音信息进行改进 几何建模 并 实现时空上的连续性
- [11, 12] spatially consistent volumetric mapping
- [5, 6, 13] moving object reconstruction
Contribution
- 提出了全景 multi-TSDF 作为可调整的volumetric map representation,这样能满足capture long-term object-level scene changes
- 提出了能使 全景 multi-TSDF 在 online operation 对 temporally consistent mapping
- 相关实验及开源
2. Method
本工作并不是优化 segmantic labeling,而是 explore high-level information 以便能实现 多分辨率三维重建和temporal consistency
2.1 框架
输入是RGBD相机上的彩色图像和深度图像,由此来预测我们的语义信息,此处主要使用了[33]的语义输出,所以文章整体的重点并不是在如何构建语义地图,而是从别的模块拿取这一信息
2.2 地图表示
主要是使用object作为最小的单位,然后整个world就是 a collection of panoptic entities, structured as submaps,所以我们将分为三类:objects, background, free space,每一个submaps包含有这个entity的信息,比如类别或是free space ,为了是实现每个submap的temporal consistency,我们将其分为active和inactive的,其中
- active 表明 现在正在被跟踪、建立
- inactive则是 过去的观测 observations
为了表示几何,我们选取TSDF grids[2]进行表示,同时TSDF可以融合多帧观测;被object占据的空间会分成blocks,只有blocks才包含有surface information
对于traversal submap,则是将object在blocks上用一个球进行扩展;每个block都包含有 a dense grid of voxels 去存储TSDF值
2.3 Label Tracking
首先是使用了marching cubes [34] 对每个submap的iso-surface进行计算,随后将view frustum上的点投影到图像平面中
对于点的深度有tolerance \(\xi_d=\nu\) 其中v表明TSDF的voxel size,当此深度被认为是有效的时候,填充此patch为v,注意input segment以IoU进行筛选
在label tracking和更新时,submaps为被跟踪t=3帧来确保它被kept,如果submaps在t=5帧间没有被检测,则视为deactivated
2.4 Integration 集成
TSDF的更新权重 [2],其中fx, fy为相机的参数,z(v)为v voxel的深度值
对应函数:
float ProjectiveIntegrator::computeWeight(const Point& p_C,
const float voxel_size,
const float truncation_distance,
const float sdf) const {
// This approximates the number of rays that would hit this voxel.
float weight =
cam_config_->fx * cam_config_->fy * std::pow(voxel_size / p_C.z(), 2.f);
// Weight reduction with distance squared (according to sensor noise models).
if (!config_.use_constant_weight) {
weight /= std::pow(p_C.z(), 2.f);
}
// Apply weight drop-off if appropriate.
if (config_.use_weight_dropoff) {
const float dropoff_epsilon =
config_.weight_dropoff_epsilon > 0.f
? config_.weight_dropoff_epsilon
: config_.weight_dropoff_epsilon * -voxel_size;
if (sdf < -dropoff_epsilon) {
weight *=
(truncation_distance + sdf) / (truncation_distance - dropoff_epsilon);
weight = std::max(weight, 0.f);
}
}
return weight;
}
关于每个voxel上的概率更新
代码对应 count probability 公式(2)
float BinaryCountVoxel::getBelongingProbability() const {
return static_cast<float>(belongs_count) /
static_cast<float>(belongs_count + foreign_count);
}
void BinaryCountVoxel::incrementCount(const int id, const float weight) {
// ID 0 is used for belonging voxels.
if (id == 0u) {
belongs_count++;
} else {
foreign_count++;
}
}
2.4 Map Management
首先是关于inactive submaps会frozen 仅对他们状态进行更新 \(C(S) \in \{\text{persistent, unobserved, absent}\}\)
为了对比两个submaps,我们对每个iso-surface point的SDF和weight进行插值。
如果sdf小于一个值,则加入进更新和计算。
结合TSDF权重,再给对应每个点权重的更新
float TsdfRegistrator::computeCombinedWeight(float w1, float w2) const {
if (w1 <= 0.f || w2 <= 0.f) {
return 0.f;
} else if (w1 >= config_.normalization_max_weight &&
w2 >= config_.normalization_max_weight) {
return 1.f;
} else {
return std::sqrt(std::min(w1 / config_.normalization_max_weight, 1.f) *
std::min(w2 / config_.normalization_max_weight, 1.f));
}
}
// Compute the weight to be used for counting.
if (config_.normalize_by_voxel_weight) {
weight = computeCombinedWeight(weight, point.weight);
total_weight += weight;
} else {
weight = 1.f;
}
为了在下游任务中使用,efficient queries are 是很重要的(迅速查询)。为了实现这一特性,对于我们的hierarchical map representation 我们仅考虑与查询点p相交的submaps和blocks
- 如果这个点是处于active submap,直接使用最高的分辨率
- 否则sdf(p) 则为到 any persistent submap 的最小距离
3. 实验及结果
首先是我们的方法在重建误差上最小,同时因为multi-resolution,能保持与其他方法在相同范围分辨率情况下的map size也更小
- monolithic map as in [3,8,9]
- Long-term fusion: [26] for volumetric maps (our implementation)
从图六折线图,可以看到一开始 Monolithic no map的误差还比较低,但会随时间而类似误差,其他with map和fusion等都会误差降低,由于semantic consistency的加入,我们的方法可以保持稳定误差范围内
如上更多关于误差和计算时间的表格,下面为定性图:
4. Conclusion
主要是提出了全景的multi-TSDFs,是一种可以多分辨率volumetric mapping下新型的representation
我们提出的submap-based方法能实现 语义上在时间上的连续性,同样保证高分辨率的准确度
未来的工作可以在segmentation refinement 和 short-term dynamics,同时也可以 提升在变化环境下的重定位算法效果
碎碎念
第一次看mapping类,cpp代码真的是套娃(继承)起飞,感觉完全弄懂代码还需要点时间,不过大概就是以下几点:
- 得益于TSDFs 信息配合下一条,能有效降低map size
- 根据不同的物体进行不同的分辨率赋值
- 时间上 binary, count 概率,同时配合TSDF有权重更新,所以可以建出变化图形
- 一种 map 新型的表达方式
赠人点赞 手有余香 😆;正向回馈 才能更好开放记录 hhh