⭐CVPR2025 3D 生成新框架｜Kiss3DGen 让 2D 扩散模型玩转 3D 资产生成

LetsonH

已于 2025-08-03 10:08:17 修改

阅读量239

点赞数 6

CC 4.0 BY-SA版权

分类专栏：【论文速递】文章标签： 3d

于 2025-08-03 10:08:01 首次发布

本文链接：https://blog.csdn.net/qq_25601345/article/details/149876386

【论文速递】专栏收录该内容

7 篇文章

订阅专栏

⭐CVPR 3D 生成新框架｜Kiss3DGen 让 2D 扩散模型玩转 3D 资产生成
📄论文题目：Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation
✍️作者及机构：Jiantao Lin、Xin Yang、Meixi Chen 等（HKUST (GZ)、HKUST、广州趣丸网络技术）
🧩面临问题：当前 3D 内容生成在质量和泛化性上存在局限。一方面，优化型方法（如 DreamFusion）需密集迭代优化，推理耗时；另一方面，直接生成法（如 InstantMesh）依赖大规模 3D 数据集，但高质量 3D 数据稀缺（Objaverse-XL 约 70% 数据存在纹理缺失等问题）。此外，2D 扩散模型虽含强大 3D 先验，却多仅生成 depth/normal 等 2.5D 表示，无法支持完整 3D 生成。
🎯创新点及其具体研究方法：
1️⃣ 提出 “3D Bundle Image” 表示与 Kiss3DGen 基础框架：将 3D 物体渲染为 4 个视角的 RGB 图及对应法线图，组合为 “3D Bundle Image” 这一 2D 表示，将 3D 生成转化为 2D 图像生成任务，最大化复用预训练 2D 扩散模型知识。通过 GPT-4V 为 Bundle Image 生成描述性文本，结合 LoRA 微调 Flux 模型得到 Kiss3DGen-Base，实现文本驱动生成 Bundle Image，再经 ISOMER 重建 3D 网格。
2️⃣ 集成 ControlNet 扩展多任务能力：提出 Kiss3DGen-ControlNet，通过 ControlNet 实现 3D 增强、编辑和图像到 3D 生成。3D 增强中用 ControlNet-Tile 优化低质量网格的纹理和几何细节；3D 编辑通过调整 ControlNet 权重（λ₁=0.3、λ₂=0.5）支持属性修改；图像到 3D 则先由 InstantMesh 生成粗网格，再经增强 pipeline 优化。
3️⃣ 小数据高效训练机制：对 Objaverse 数据集精筛得到 147k 高质量 3D 物体，仅用 3 天在 8 张 A800 GPU 上完成训练；即使缩减至 50k 数据集，在文本到 3D、图像到 3D 等任务中仍保持竞争力，验证数据效率优势。

在这里插入图片描述