NERF论文笔记(1/2)

CS_Zero

已于 2024-04-02 19:52:23 修改

阅读量1.8k

点赞数 42

CC 4.0 BY-SA版权

分类专栏：自动驾驶感知算法 3D计算机视觉三维重建文章标签：论文阅读 NERF

于 2024-03-04 17:36:18 首次发布

本文链接：https://blog.csdn.net/CSUzhangpeike/article/details/136458186

这篇博客详细介绍了NeRF（神经辐射场）技术，通过优化连续的体积场景函数，实现从稀疏场景图像生成任意视角的视图。NeRF利用全连接深度网络表示场景，输入为5维坐标，输出体积密度和依赖于视点的发射辐射。文章涵盖NeRF的基本原理，包括体积渲染、网络结构以及两项技术改进：位置编码和多层采样。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

NeRF:Representing Scene as Neural Radiance Fields for View Synthesis 笔记

摘要

实现了一个任意视角视图生成算法：输入稀疏的场景图像，通过优化连续的Volumetric场景函数实现；用全连接深度网络表达场景，输入是一个连续的5维坐标，3D坐标+2D角度（航向、俯仰角），输出Volume density和依赖于视图的emitted radiance，查询5维坐标并用经典的Volume Rendering把输出的颜色与强度投影到图像。

介绍

a. march camera rays，我理解为从焦点投射射线到场景，获取3D坐标点。
b. 用3D点 $x\bold{x}$ 与对应的2D角度(用单位向量 $d\bold{d}$ )输入，输出颜色 $c\bold{c}$ 和强度 $σ\sigma$ 。
c. 合成图像。

Neural Radiance Field场景表达

$F_{\theta}:(\bold{x},\bold{d})\rarr(\bold{c},\sigma)$
输出 $σ\sigma$ 只与输入位置坐标 $x\bold{x}$ 有关， $c\bold{c}$ 则与 $x\bold{x}$ 、 $d\bold{d}$ 有关。

网络结构，输入 $x\bold{x}$ 的8层全连接层，均为256通道，各层带ReLU激活，输出 $σ\sigma$ 、256维特征，此特征再与 $d\bold{d}$ 聚合，输入一层带ReLU的全连接层，输出 $c\bold{c}$ 。

Volume Rendering

位置坐标 $x\bold{x}$ 表达为相机射线 $r\bold{r}$ ， $r(t)=o+td\bold{r}(t)=\bold{o}+t\bold{d}$ ，t是从焦点 $o$ 出发的长度，积分上下界是远端、近端。
$C(\bold{r})=\int_{t_{n}}^{t_{f}} T(t)\sigma(\bold{r}(t))\bold{c}(\bold{r},d)dt\\T(t)=exp(-\int_{t_{n}}^t\sigma(\bold{r}(s))ds)$