TripoSR 是由 Stability AI 与 Tripo AI 合作开发的一种新型的 3D 物体重建模型。它能够在不到一秒钟的时间内从单张图片生成高质量的 3D 模型。这个模型可以在低推理预算下运行,甚至不需要 GPU,这使得它对广泛的用户和应用来说既易于获取又实用。模型权重和源代码已在 MIT 许可下发布,允许商业化、个人和研究使用。
主要功能特点:
- 快速的 3D 物体重建:能够迅速从单张图片生成 3D 模型。
- 低成本运行:无需高性能 GPU,降低了使用门槛。
- 开源许可:模型权重和源代码开放,支持多种用途。
应用场景:
- 娱乐和游戏领域:可以迅速生成高质量的3D角色和场景,为游戏开发者节省大量时间和成本。
- 工业设计:快速创建精确的3D模型,帮助设计师和工程师更好地理解和改进设计方案。
- 建筑规划:将设计草图转换成详细的3D建筑模型,为建筑师提供直观的设计概念呈现。
- 虚拟现实和增强现实:提供沉浸式体验,增强用户互动和感知。
TripoSR的项目地址
- 论文地址:https://arxiv.org/abs/2403.02151
- Github仓库:https://github.com/VAST-AI-Research/TripoSR
- 项目地址::https://yiconghong.me/LRM/
- 在线体验:https://huggingface.co/spaces/stabilityai/TripoSR
如何实现快速重建?
- 图像编码器:利用预训练的视觉变换器(如DINOv1)将图像编码为潜在向量,包含全局和局部特征,为3D对象重建提供关键信息。
- 解码器:将潜在向量转化为三平面-NeRF表示,有效表示复杂形状和纹理的物体。
- NeRF模型:基于MLPs,预测3D点颜色和密度。
- 渲染与训练:模型无需相机参数,通过“猜测”相机参数提升对野外图像的鲁棒性。
- 技术创新:数据优化、三平面通道增强、掩码损失和局部渲染监督等,提升模型性能。