apple-ml-research

Velox：学习 4D 几何与外观表示

Velox: Learning Representations of 4D Geometry and Appearance

二〇二六年五月九日 · 英文原文

摘要

该内容提出 Velox 框架，用于学习 4D 对象 latent representations。方法以非结构化 dynamic point cloud 为输入，训练 encoder 将 spatiotemporal color point clouds 压缩为 dynamic shape tokens，并通过 4D surface decoder 建模时变 surface distribution 以捕捉 geometry，另用 Gaussian decoder 监督 appearance。

我们提出了一个用于学习 4D 对象 latent representations（潜在表示）的框架。这些表示具有描述性，能够忠实捕捉对象的 geometry（几何）和 appearance（外观）；具有压缩性，有助于提升下游任务效率；并且易于获取，只需要最少输入，即一个非结构化 dynamic point cloud（动态点云），即可构建。具体而言，Velox 训练一个 encoder，将 spatiotemporal color point clouds（时空彩色点云）压缩为一组 dynamic shape tokens（动态形状 token）。这些 token 由两个互补的 decoder 进行监督：一个 4D surface decoder，用于建模随时间变化的 surface distribution（表面分布）以捕捉 geometry；以及一个 Gaussian decoder……

译自 apple-ml-research · 录于二〇二六年五月九日