神经辐射场(NeRF)三维重建技术

神经辐射场(Neural Radiance Fields, NeRF)是一种用于高分辨率三维重建和表示的新颖的隐式方法 1。它通过学习一个连续的五维函数来表示场景的体素光辉和密度 3。这个函数通常由一个多层感知机(Multilayer Perceptron, MLP)实现,将一个三维空间位置 (x,y,z) 和一个二维观察方向 (θ,ϕ) 映射为一个体密度 σ 和一个RGB颜色 c 3。

NeRF的核心意义在于它标志着一个重要的转变,使得从稀疏的二维图像集合中合成照片般逼真的新视角成为可能 7。它通过将场景表示为连续的体函数,解决了视图合成领域长期存在的挑战 3。Mildenhall等人于2020年(最初发表于ArXiv,后被ECCV 2020接收)引入的NeRF技术,在神经体渲染领域引发了“兴趣的爆炸性增长” 11,并开创了隐式三维重建的新研究领域 2。这与先前通常依赖于离散表示(如网格或体素)的方法形成了鲜明对比 9。传统显式三维表示方法(如点云、网格、体素)固有的离散化、难以处理视图依赖效应等局限性,直接推动了对替代方案的探索,最终促成了像NeRF这样的隐式神经表示方法的诞生和迅速普及。这一转变不仅解决了旧问题,更预示着三维内容创建和理解方式的范式革新,即越来越依赖基于学习的连续模型。

传统的三维重建方法通常是显式的,例如生成点云、网格或体素等 2。这些方法可能存在离散化伪影、可扩展性问题(体素)、缺乏连接性(点云),或者难以平滑地表示复杂的拓扑结构和视图依赖效应 9。

NeRF的新颖性在于其由神经网络学习到的隐式且连续的表示,这在细节表现、处理遮挡以及视图依赖效应方面展现出优势 7。它消除了传统摄影测量中许多固有的几何约束 13。传统方法通常在从有限数据进行高分辨率重建方面面临困难,并且可能高度依赖硬件 2。NeRF的深度学习方法提供了一种新的范式,即使从少量图像也能合成高度详细的模型 2。这种从稀疏二维图像集生成照片级真实感结果的能力,降低了创建高保真三维内容的门槛,而这在以前通常需要专业设备和专门知识。这种技术的进步,使得高保真三维重建不再是拥有大量资源的专家的专属领域,而是向更广泛的用户和应用开放,可能催生用户生成三维内容的激增,个性化虚拟体验的普及,以及三维模型在传统视觉特效和游戏之外的各行各业得到更广泛的应用。

  • 照片级真实感:NeRF以其生成“极高分辨率”和“令人印象深刻的照片级真实感重建”的能力而闻名 2。这是其受到广泛关注的主要原因之一 8。
  • 连续体表示:场景并非离散化,而是被表示为一个连续函数。这使得视图能够平滑插值,并能捕捉精细细节 4。这与本质上是离散的显式表示形成对比 12。
  • 视图依赖效应:NeRF显式地建模了外观如何随观察方向变化(通过输入 θ,ϕ),这对于渲染逼真的镜面高光、反射和半透明效果至关重要 3。与那些将光照“烘焙”到模型中或难以处理非朗伯表面的方法相比,这是一个显著优势 11。

对视图依赖效应的建模能力对于实现真实感至关重要。传统方法在这一点上常常遇到困难,而NeRF的五维输入(位置+方向)直接解决了这个问题 3。例如,Ref-NeRF 16 通过显式建模反射辐射,进一步改进了镜面反射效果。

  • 多视角图像:NeRF需要一组从不同视点拍摄的场景二维图像 13。通常建议使用20到30张或更多图像以获得良好质量 13。
  • 相机姿态:对于每张输入图像,必须知道拍摄时相机精确的三维姿态(位置和方向)13。这些信息通常通过运动恢复结构(Structure-from-Motion, SfM)算法(如COLMAP)获得 5。
  • 姿态挑战:对精确相机姿态的需求是一个重要条件。不准确的姿态会降低重建质量 9。像CAD-NeRF这样的研究旨在从少量图像(甚至在没有已知姿态或只有粗略姿态的情况下)重建NeRF 19。

输入数据的质量,特别是姿态的准确性,直接影响NeRF学习一致三维表示的能力。虽然COLMAP 20 等工具有所帮助,但在所有场景中获得完美姿态仍然是一个挑战,这催生了对姿态无关或姿态优化的NeRF研究 19。相机姿态(输入)的准确性与学习到的NeRF质量之间存在至关重要的相互依赖关系。不准确的姿态会导致不一致的三维信息,从而混淆MLP并产生伪影。这种依赖性已催生了一个专注于联合姿态优化或无姿态NeRF的研究子领域 19。严格的精确姿态要求在实际应用中构成了一个瓶颈,尤其是在随意拍摄或处理历史数据时。这直接刺激了诸如CAD-NeRF 19 或iNeRF 21 等旨在放宽这一约束的方法的研究。解决姿态依赖性挑战将极大地拓宽NeRF在非受控环境和用户生成内容中的适用性,使其在实际部署中更加稳健。

对于输入图像中的每个像素,从相机视点出发,穿过该像素向场景中投射一条光线 6。沿这条光线采样一系列点 13。原始NeRF使用分层采样策略,将光线分成若干段,并在每段内随机采样 11。

为了提高效率并专注于相关区域,NeRF采用了**分层体采样(Hierarchical Volume Sampling)**策略。首先,一个“粗糙”网络评估采样点,然后一个“精细”网络将采样集中在预期密度或贡献较高的区域 6。这样可以避免在空白或被遮挡空间浪费计算资源 22。光线步进模拟了光线的传播方式。高效采样至关重要,因为对每条光线上的每个点都查询MLP的计算成本很高。分层采样 22 是原始NeRF中使其变得实用的一项关键优化。

NeRF中的“神经”指的是一个MLP(通常是一个简单的、全连接的网络,没有卷积层)3。

  • 输入:MLP接收一个五维坐标作为输入:光线上采样点的三维位置 (x,y,z),以及光线在该点的二维观察方向 (θ,ϕ) 3。
  • 输出:MLP输出该五维坐标处的体密度 σ(一个表示不透明度的标量)和与视图相关的RGB颜色 c 3。
  • 架构示例:一个常见的架构包含8个全连接层(例如,每层256个神经元),使用ReLU激活函数。观察方向通常在较后的层中被拼接进去,以使密度主要成为位置的函数,而颜色可以同时依赖于位置和观察方向 24。

MLP本身就是场景的表示。其权重经过优化,以编码整个场景的几何形状和外观。MLP架构的简洁性 11 与其产生的高质量结果形成了鲜明对比。原始NeRF的计算流程(密集采样+MLP查询+体渲染)虽然保证了质量,但速度非常慢。这种质量与效率之间的固有权衡,是后续创新(如分层采样 22、更快的MLP架构以及替代表示方法,例如Plenoxels 25 和Instant-NGP 26)的主要驱动力。对高质量和实用速度的双重追求,直接催生了各种创新。分层采样 22 是NeRF内部的早期尝试。后来,更激进的方法如Instant-NGP 26 重新思考了编码和MLP,而Plenoxels 25 甚至为了速度而移除了MLP。这种在保持或提高质量的同时不断追求效率的努力,是深度学习和计算机图形学领域的共同主题。为NeRF开发的解决方案(例如高效编码、专用硬件实现如tiny-cuda-nn 27)通常具有更广泛的适用性。

标准MLP难以从低维输入中学习高频变化(即存在谱偏差)24。这将导致渲染结果过于平滑或模糊。为了解决这个问题,**位置编码(Positional Encoding)**将低维输入坐标 (x,y,z,θ,ϕ) 通过一组正弦函数(不同频率的正弦和余弦函数)映射到更高维的特征空间 6。其数学表达式通常为:
γ(p)=(sin(20πp),cos(20πp),…,sin(2L−1πp),cos(2L−1πp))
这使得MLP能够学习到几何和外观上更精细的细节,对于实现照片级真实感至关重要 11。这项创新后来在SIREN 11 中得到了推广。位置编码是原始NeRF中一个关键的“附加功能” 11,它极大地促成了其表示清晰细节的能力。没有它,NeRF会产生模糊的结果 24。位置编码不仅仅是一个附加组件,更是NeRF高频细节能力的一个根本促成因素。没有它,MLP的谱偏差将严重限制重建质量。这突显了神经网络中一个更深层次的原理:输入特征工程对于克服固有的架构局限性的重要性。标准MLP无法从原始坐标中学习高频信息,这使得位置编码的引入成为NeRF实现其著名细节的必要条件。这强调了一个在应用神经网络时的普遍原则:架构本身可能存在局限性,通过将输入数据转换为更有利的表示形式可以有效地解决这些局限性。这对设计任何基于坐标的神经网络的输入都具有启示意义。

像素的颜色是通过对沿相应相机光线采样的所有点的颜色 c 和密度 σ贡献进行积分来计算的 4。NeRF中使用的体渲染方程的离散形式为:
C^(r)=i=1∑N​Ti​(1−exp(−σi​δi​))ci​
其中,Ti​=exp(−∑j=1i−1​σj​δj​) 是透射率(光线从相机传播到采样点 i 而未被遮挡的概率),σi​ 是采样点 i 处的密度,ci​ 是采样点 i 处的颜色,δi​ 是相邻采样点之间的距离 24。Ti​(1−exp(−σi​δi​)) 可视为每个采样点颜色的alpha混合权重 30。密度较高的点对最终像素颜色的贡献更大 13。这个方程是对光线穿过参与介质时累积过程的数值近似。它是将MLP的输出(每点的密度和颜色)转换为最终二维图像的核心机制 4。

MLP的权重通过最小化损失函数(通常是渲染像素颜色 C^(r) 与输入图像的真实像素颜色 C(r) 之间的平方和误差,即L2损失)进行优化 6。
Loss=r∈R∑​∣∣C^(r)−C(r)∣∣22​
其中 R 是每个批次中的光线集合。优化过程使用梯度下降法(例如Adam优化器)进行 13。在训练过程中,MLP学会预测密度和颜色值,这些值通过体渲染积分后能够最好地再现输入视图 13。这是一个自监督过程,因为三维结构仅从二维图像及其姿态中学习,无需直接的三维地面真实监督。网络针对特定场景进行“过拟合”,这对于该场景的高保真重建是理想的 31。

NeRF自问世以来,其核心思想催生了大量研究工作,旨在克服其初始版本的局限性并扩展其应用范围。这种演进清晰地展现了问题驱动的研究模式:原始NeRF的每一个主要限制(例如混叠、速度、静态场景假设、规模、数据依赖性、材质保真度)都直接催生了特定解决方案的开发(例如分别为Mip-NeRF、Instant-NGP/Plenoxels、动态NeRF、Block-NeRF、少样本NeRF、Ref-NeRF)。研究社区系统地识别并解决了NeRF的瓶颈和缺点,导致了该技术的快速和有针对性的发展。这种迭代的科学技术进步模式表明,一项基础技术的成功和局限性为未来的创新铺平了道路,每一个解决的问题都可能释放新的能力和应用。

随着NeRF技术的成熟,一个明显的趋势是各种思想的融合与混合。例如,快速NeRF技术(如Instant-NGP中的哈希编码)正与少样本学习方法(如用于INGP的DWTNeRF 32)相结合。同样,一度独立的几何先验知识也被整合到NeRF模型中(如P2NeRF 33)。最初的变体通常专注于孤立地解决一个问题(例如速度或动态场景)。后来的工作,如DWTNeRF 32,明确旨在使少样本学习与INGP等快速模型兼容。P2NeRF 33 将几何先验(来自匹配/深度估计)整合到少样本NeRF中。VoxNeRF 34 则利用体素引导采样。研究人员开始将来自不同子问题的成功解决方案结合起来,以创建功能更全面的模型。该领域正从解决孤立的NeRF局限性转向整合这些解决方案,从而创建更强大和通用的NeRF框架。这表明该领域日趋成熟。随着各个组件得到充分理解和优化,重点转向系统级集成,从而产生更强大和实用的工具。当一项技术从纯研究过渡到更广泛的应用时,通常会发生这种情况。

有趣的是,尽管NeRF的核心思想是纯粹的隐式基于MLP的表示,但许多成功的加速技术(如Instant-NGP的哈希网格 26、Plenoxels的体素网格 25、以及各种占用栅格 27)重新引入了某种形式的显式、离散结构(网格、体素)来引导或加速隐式函数。原始NeRF是完全隐式的(MLP将坐标映射到密度/颜色)3。Instant-NGP使用显式的特征哈希网格 26。Plenoxels使用显式的包含球谐系数/密度的体素网格 25。许多快速NeRF使用占用栅格 27。这些显式结构并非像传统体素/网格那样是主要的场景表示,而是作为高效的查找表或对(通常较小的)MLP或渲染过程的引导。纯粹的隐式模型功能强大但速度较慢。引入精心设计的显式结构可以通过预计算或结构化信息来大幅提速,而不会牺牲由神经组件(如果存在)学习到的底层连续表示的质量优势。这表明许多神经渲染和表示任务的最佳路径可能在于混合方法,将隐式神经函数的表达能力与显式数据结构的效率相结合。这是计算机科学中一个反复出现的主题——在不同表示范式之间找到正确的平衡点。

原始NeRF沿光线采样无限小的点,这在渲染与训练视图不同分辨率或距离的视图时会导致混叠(锯齿边缘、闪烁)35。当训练图像以非均匀尺度捕获时,它也会产生模糊的渲染结果 35。

Mip-NeRF的解决方案是将光线表示为圆锥台而非无限细的线 35。它引入了积分位置编码(Integrated Positional Encoding, IPE),该编码将位置编码函数在这些圆锥台的体积上进行积分。这使得MLP能够在一个连续的尺度范围内推理场景 22。其结果是显著减少了混叠,并改善了从不同距离或分辨率观察场景时的细节 2。

然而,Mip-NeRF(以及原始NeRF)在处理“无界”360度场景时遇到困难,这些场景中相机可能指向任何方向,内容可能存在于任何距离 36。这导致了参数化(有界域中的欧几里得坐标)、效率(大场景需要更多采样点/容量)和模糊性(漂浮物、背景坍塌)等问题 36。

Mip-NeRF 360针对无界场景的解决方案 36 包括:

  • 非线性场景参数化:使用收缩函数将无界欧几里得坐标映射到有界域(类似于NDC,但用于360度场景),为近处内容分配更多容量。
  • 在线蒸馏:采用一个“提议MLP”(较小,预测密度用于重采样)和一个“NeRF MLP”(较大,预测最终颜色/密度)。提议MLP被训练以匹配NeRF MLP预测的权重分布,从而提高大场景的效率。
  • 新颖的基于失真的正则化器:惩罚“漂浮物”伪影,并鼓励紧凑的光线贡献,以解决大型、稀疏观察场景中的模糊性。 Mip-NeRF 360在无界场景上的均方误差比Mip-NeRF降低了57%,并能为高度复杂、无界的真实世界场景生成逼真的合成视图和详细的深度图 36。Mip-NeRF 2 是实现实用级质量的关键一步,解决了NeRF点采样的一个根本缺陷。Mip-NeRF 360 36 进一步将其扩展到处理具有挑战性的大尺度室外场景,这是早期NeRF的一个主要障碍。

原始NeRF速度缓慢是众所周知的,单个场景的训练需要数小时到数天,每帧渲染需要数秒 11。

Instant-NGP (Instant Neural Graphics Primitives) 26 的核心创新在于多分辨率哈希编码。输入坐标被映射到存储在不同分辨率的多个哈希表中的可训练特征向量 26。哈希冲突通过与输出最相关的可训练特征在优化中占据主导地位而得到隐式处理 27。其他优化包括一个更小、完全融合的MLP(例如4层,每层64个神经元),其操作被融合到单个CUDA核心中以实现极高效率 27,以及一个在训练过程中更新的占用栅格,用于跳过空白空间或密集区域后的采样 27。这些改进带来了数量级的速度提升(例如,训练时间缩短至数秒到数分钟,渲染时间缩短至数十毫秒)26。Nerfstudio中的Nerfacto模型吸收了这些思想 27。

Plenoxels (Plenoptic Voxels) 25 提出了一种无需神经网络即可实现照片级真实感视图合成的方法。它将场景表示为一个稀疏的三维体素网格,每个体素存储不透明度和用于视图相关颜色的球谐系数 25。通过梯度方法和正则化(例如全变分正则化)直接优化这些体素值 25,并采用从粗到细的优化和空体素剪枝策略。其优化速度比NeRF快两个数量级(例如,单个GPU上11分钟对比1天),视觉质量相当 25。这表明可微分体渲染器,而不仅仅是MLP,是NeRF成功的关键因素 28。

其他加速方法包括EfficientNeRF 39 和KiloNeRF(将场景划分为许多微型MLP)13。原始NeRF的速度限制是其实际应用的主要障碍。Instant-NGP和Plenoxels在解决这个问题上取得了突破,使得NeRF技术更加易于获取和交互。它们突显了神经架构创新乃至非神经显式表示都可以在大幅提高速度的同时达到类似NeRF的质量。

原始NeRF假设场景是静态的,无法处理移动物体或变化的环境 2。

动态NeRF的通用方法 1 包括:

  • 形变场:学习一个从“规范”或模板空间到每个时间步观察到的动态场景的映射。时间变量或潜码通常作为输入。
    • D-NeRF (Pumarola et al.):将时间作为输入参数,以渲染刚性和非刚性物体 46。
    • Nerfies (Park et al.):通过学习一个将点从观察空间扭曲到规范空间的形变场来建模可变形物体。使用特定于帧的潜在形变码 11。
    • HyperNeRF:通过将NeRF提升到更高维空间,并根据每帧特定的潜码对其进行切片,扩展了Nerfies,允许形变场中存在不连续性 45。
  • 场景流:估计场景中点的三维运动(例如,Neural Scene Flow Fields 11)。
  • 分离的静态/动态模型:将场景分解为静态和动态组件,通常由单独的NeRF表示(例如,D2NERF 31; STaR 45)。
  • 时间作为输入:最简单的方法是将时间 t 作为NeRF MLP的附加输入(例如,Space-Time Neural Irradiance Fields 11; NeRF-Time 45)。

动态NeRF的挑战 2 包括实现比静态NeRF更复杂和困难 2,处理非刚性运动、拓扑变化,以及建模由运动引起的表观变化(例如,运动物体上的镜面反射——NeRF-DS 47 对此进行了处理),同时还面临计算成本和数据需求的挑战。

NeRFPlayer 49 将动态场景分解为静态、变形和新增区域,并使用特征通道上的滑动窗口来实现可流式表示。动态NeRF对于现实世界的应用至关重要,因为场景很少是静态的。该领域正在迅速发展,专注于更好的形变建模、效率和处理复杂的外观变化。动态NeRF被视为可编辑NeRF的前身 2。

将单个NeRF扩展到城市规模的环境是不切实际的,因为存在内存限制、渲染时间随场景大小而增加的问题,以及难以处理在不同条件下长时间(例如数月)捕获的数据所导致的外观变化 37。

Block-NeRF的解决方案 37 是将大规模环境划分为一个由较小的、单独训练的NeRF(称为“块”)组成的网格。这种场景分解将渲染时间与整体场景大小解耦。每个Block-NeRF都包含外观嵌入(用于建模光照、天气随时间的变化)、学习到的姿态优化(用于提高从数月捕获数据的一致性)和可控曝光(用于保持亮度一致)。此外,还引入了一个外观对齐程序,以对齐相邻块之间的外观,从而在渲染时实现无缝组合。这种分块更新机制允许通过仅重新训练相关块来更新环境的某些部分。Block-NeRF由此构建了当时最大的神经场景表示(从280万张图像渲染旧金山的一个社区)51。

其他大规模方法包括Mega-NeRF 52、BungeeNeRF 37 和Mip-NeRF 360 36。Switch-NeRF和HMoHE(异构哈希专家混合)用于可学习的分解和建模场景异构性 52。Block-NeRF展示了一种将NeRF原理应用于广阔地理区域的实用方法,这对于自动驾驶模拟和城市数字孪生等应用至关重要。其关键在于模块化和处理外观变化。

原始NeRF通常需要密集的一组输入视图(例如20-100张)才能获得高质量结果 9。在稀疏视图(即“少样本”问题)的情况下,性能会显著下降。

少样本NeRF的方法 19 包括:

  • 基于先验的方法:利用预训练模型或通用场景先验。
    • PixelNeRF 23:使用卷积网络从稀疏输入中提取图像特征,并以此为条件对NeRF进行约束。可以在无需逐场景训练的情况下推广到新场景。
  • 基于正则化的方法:添加损失项以鼓励从稀疏视图中获得合理的几何形状或一致性。
    • InfoNeRF 32:强制相邻光线具有一致的密度分布。
    • RegNeRF 32:对几何形状进行正则化。
    • DietNeRF 32:利用CLIP实现语义一致性。
  • 基于模型的方法:修改MLP架构以提高少样本能力 32。
  • DWTNeRF 32:针对基于INGP的模型,使用离散小波损失在早期训练中优先考虑低频信息,以减少在少样本情况下对高频信息的过拟合。还使用了多头注意力机制。
  • P2NeRF 33:针对360度外向室内场景,使用基于匹配的几何预热(全局先验)和分组深度排序损失(来自单目深度的分层先验)。

快速收敛模型(如INGP)在少样本设置中的挑战 32:INGP的多分辨率哈希编码不同于香草NeRF中的正弦位置编码,使得一些为香草NeRF设计的少样本技术不兼容。此外,INGP的积极优化动态使其对模型架构的调整(通常在基于模型的少样本方法中提出)非常敏感。降低数据依赖性对于在无法进行大量数据采集的场景中使NeRF实用化至关重要。少样本NeRF是一个活跃的研究领域,旨在以最少的输入保持高质量。

尽管NeRF能够建模视图依赖性,但准确捕捉和再现高度光滑的表面以及复杂的镜面反射仍然具有挑战性,有时会导致反射模糊或不准确 16。

Ref-NeRF的解决方案 16 是用反射辐射的表示替换NeRF对视图相关出射辐射的参数化。它使用空间变化的场景属性(如表面法线和双向反射分布函数(BRDF)参数)来构建此函数,并对法向量使用正则化器。其结果是显著提高了镜面反射的真实感和准确性,并且其内部表示对于场景编辑而言是可解释的 16。为了实现真正的照片级真实感,准确的材质表示是关键。Ref-NeRF及类似工作(例如使用各向异性球面高斯函数的工作 16)推动NeRF向更基于物理的材质渲染方向发展。

NeRF的核心优势——照片级真实感、连续表示和视图依赖性——使其具有跨领域的适用性。这些基本特性在从娱乐(视觉特效 18)到关键基础设施(医学成像 7,数字孪生 54)和机器人技术 21 等不同领域都具有可转移的价值。这表明NeRF不仅仅是一种小众的图形技术,而是一种用于三维场景理解和生成的基础技术,有潜力成为许多科学和工业工作流程中的标准工具,就像二维卷积神经网络在图像分析领域那样。

许多NeRF应用,特别是在虚拟现实/增强现实(VR/AR)23、数字孪生 54 和大规模城市建模 51 方面,都是实现“元宇宙”或互联持久虚拟世界概念的直接推动者。NeRF能够以空前的真实感和规模捕捉和渲染复杂的真实世界场景,解决了构建可信且引人入胜的元宇宙体验的关键技术挑战。随着NeRF技术(尤其是在实时渲染和动态场景方面)的成熟,它可能会显著加速元宇宙平台的开发和丰富性,将其从卡通化身转向高度逼真的数字现实对应物。

用户友好工具的开发和与现有工作流程的集成(例如Nerfstudio 55;Blender插件 55;KIRI Engine 20)是NeRF在视觉特效和三维内容创建等应用领域得到更广泛采用的关键催化剂。没有这些工具,NeRF很可能仍局限于研究实验室。开创性研究(NeRF)带来了新的可能性。基于这项研究构建的工具降低了入门门槛,这反过来又推动了更广泛的采用和反馈,从而可能进一步推动研究和工具开发。围绕核心技术的工具生态系统对于其在现实世界中的影响与技术本身同样重要。NeRF工具生态系统的发展将是其从研究新奇事物向行业标准过渡的关键指标。

NeRFs为创建逼真的视觉效果、模拟、栩栩如生的环境和角色提供了照片级真实感的重建能力 18。其视图相关渲染特性对于视觉特效至关重要,允许镜面高光和透明度根据相机视角自然变化 18。通过将NeRFs集成到视觉特效流程中(例如,使用带有Nerfstudio的Blender插件),可以将NeRF渲染与网格、其他NeRFs以及实景镜头进行合成 55。这包括对齐相机路径,使用NeRF渲染作为环境贴图进行重新照明,以及绿幕合成 55。尽管对于高端视觉特效中的“最终像素”而言,计算量仍然很大,但它对于预可视化、后可视化、虚拟制作(LED屏幕)和场地勘景非常有价值 18。NeRF捕捉复杂材质和光照条件的能力 18 对视觉特效而言,是相较于传统摄影测量技术的重大进步。开发将NeRFs集成到Blender 55 等现有软件中的工具,对于其推广应用至关重要。

由于NeRFs能够准确建模三维场景,从而促进了逼真虚拟环境的创建和探索,因此它们是VR/AR领域的一项至关重要的技术 23。NeRFs可以根据观察方向显示新的视觉信息,甚至在真实空间中渲染虚拟对象 23。包括NeRF在内的辐射场可以在VR中查看,并保留视图相关的效果,从而提供逼真的外观 5。在工业元宇宙应用中,NeRFs用于高保真重建虚拟环境中的对象,从而增强设计、模拟和远程协作 58。然而,渲染速度(低FPS)可能是沉浸式VR应用的一个障碍 17。VR/AR的目标是沉浸感。NeRF的照片级真实感和视图依赖性 5 对此做出了重大贡献,使虚拟体验更加可信。速度的提升对于VR/AR的广泛应用至关重要。

NeRFs为融合相机测量数据以形成密集、连续的场景表示提供了一种灵活的方法,可用于SLAM、路径规划和控制等任务 6。

  • 定位:iNeRF通过最小化真实图像与NeRF渲染图像之间的残差来优化相机姿态 21。即使NeRF不完美,通过将定位信息提取到CNN中,NeRF衍生的定位信息也可以与视觉惯性里程计(VIO)集成以对抗漂移 21。NeRF-Loc使用粗略和精细两个流在多个尺度上处理信息,以在NeRFs中进行三维对象定位 48。
  • 建图/SLAM:NeRF-SLAM实现了密集的单目SLAM 21。NeRF-VINS将预训练的NeRF与VIO紧密耦合 21。
  • 模拟:环境的高保真NeRF模型可以作为训练机器人的强大模拟平台 48。 然而,嵌入式系统上的计算成本以及在非受控环境中出现的伪影是其面临的挑战 21。机器人需要精确的三维地图才能导航和交互。与传统的点云或体素相比,NeRFs提供了更丰富、更逼真的地图表示 48,有可能实现更好的感知和决策。

NeRFs可以从CT或MRI等二维扫描图像创建全面的三维解剖结构 7。通过有效处理复杂的光线相互作用和视图相关现象,NeRFs在可视化复杂解剖结构方面提供了前所未有的细节和准确性,从而生成更清晰、更连续的内部身体结构表示,超越了传统方法 7。
其潜在益处 7 包括:

  • 最小化辐射暴露:通过从稀疏的二维图像生成三维表示,可以减少对多次或高分辨率扫描的需求。
  • 减少时间消耗:通过从有限数量的图像快速创建三维模型,简化了流程,从而加速了数据收集和图像重建。
  • 降低成像成本:通过从较少输入生成详细的三维模型,可能减少对昂贵成像资源的依赖。 然而,应用于医学数据时面临独特的挑战,包括基本的成像原理、内部结构要求、对象边界定义以及颜色/密度在医学背景下的重要性 60。从标准医学扫描生成详细的三维可视化图像的能力,可以极大地辅助诊断、手术规划和医学教育。解决医学数据的特定挑战是关键。
  • 数字孪生:NeRFs被用于创建物理对象或环境的虚拟复制品 54。结合实时数据,这些数字孪生可以为城市规划、工厂自动化、仓库管理等提供洞察和模拟 54。
  • 城市规划:将航空影像重建为景观渲染图,为真实世界的布局提供了有用的参考 23。城市环境的逼真模拟有助于就基础设施、交通和可持续性做出明智决策 54。
  • 卫星影像:NeRFs可以从卫星图像生成地球表面的综合模型 23,可用于现实捕捉(RC)。 Block-NeRF 51 和其他方法 37 对于城市规模的数字孪生至关重要。NeRF的真实感和建模大范围区域的能力使其成为创建详细和交互式数字世界表示的强大工具,影响着我们规划、管理和与物理空间互动的方式。

NeRFs正在推动三维内容的生成 6。自动化工作流程可以将图像(甚至来自智能手机的图像)转换为三维网格、NeRFs或高斯溅射,用于沉浸式环境 62。这对于在线无法获得的专业三维模型(例如工业硬件)非常有帮助,从而降低了定制资产创建的成本和时间 62。NeRFs也被探索用于通过GANs进行三维对象生成,使用NeRF或SDF表示 64。文本到三维生成正在探索将NeRFs作为输出表示 65。NeRF简化了逼真三维资产的创建,有可能使三维建模大众化,并使高质量内容更易于用于游戏、VR/AR和工业培训。

在三维表示领域,并不存在一种万能的“银弹”方案;每种技术都涉及显著的权衡。例如,NeRF在质量上表现出色,但在速度和可编辑性方面有所欠缺 17;摄影测量在几何精度上占优,但在处理材质方面存在困难 17;3D高斯溅射速度快,但在光照细节上不如NeRF,且早期版本难以编辑 17;体素则非常消耗内存 44。因此,技术的选择高度依赖于具体应用的需求。三维表示技术的发展并非朝着单一终极解决方案的线性演进,而是工具箱的扩展,不同的工具适用于不同的任务。用户和研究人员在选择三维表示方法时,必须仔细考虑其应用的具体需求(例如实时性、几何精度、视觉保真度、可编辑性)。该领域可能会继续见证多种表示方法的共存和专门化。

一个值得注意的趋势是“显式与隐式”频谱的模糊化。虽然NeRF开创了“隐式”神经表示,但其演进(例如Instant-NGP的哈希网格 26,Plenoxels的体素网格 25)以及像3D高斯溅射(显式高斯基元 57)这样的替代方案,显示出向混合方法或回归到由学习引导的显式基元的趋势。严格的二分法正变得不那么清晰。原始NeRF是纯粹的隐式MLP 3。Instant-NGP使用显式哈希网格来辅助一个较小的MLP 27。Plenoxels是完全显式的体素,像NeRF一样进行优化 28。3D高斯溅射使用显式高斯基元 57。Mesh2NeRF 67 则桥接了显式网格和NeRF。许多近期的高性能方法都结合了显式的结构化组件,或者取代了纯粹的隐式神经函数。该领域正在探索介于完全隐式和完全显式之间的频谱,试图结合两者的优点(例如,隐式的连续性和学习能力,以及显式的效率和可控性)。未来的突破可能在于将学习到的隐式函数与结构化显式表示相结合的新颖方法,而不是厚此薄彼。这可能导致同时具备高质量、快速、可编辑和内存高效的表示方法。

在NeRF与摄影测量的比较中,一个反复出现的主题是渲染质量与几何精度之间的二分法。NeRF的长处在于照片级渲染质量 14,而摄影测量的传统优势在于精确的几何精度/测量 17。NeRF优化的是与输入图像的视觉相似性,而摄影测量优化的是几何一致性。这两者并非总是直接相关;视觉上令人惊叹的渲染可能在几何上并不完美,而几何精确的模型如果材质属性简化,则可能看起来不那么逼真。应用必须根据主要需求进行选择。对于视觉特效或VR沉浸感,渲染质量可能至关重要。对于工程或测量,几何精度是关键。未来的研究可能会致力于统一这两者,创建既具有NeRF般视觉效果又具有可证明几何精度的模型。

  • 原理
    • 摄影测量 (SfM/MVS):属于几何重建。SfM估计相机姿态和稀疏三维点。MVS通过在多个视图中找到对应关系并进行三角测量,将其稠密化为点云或网格 13。输出通常是带有纹理的显式网格。
    • NeRF:基于学习的隐式表示。使用MLP从图像和姿态中学习连续的体函数(辐射度和密度)7。
  • 重建质量
    • 摄影测量:在数据良好的情况下,可以生成高度详细且几何精确的网格 17,尤其擅长捕捉清晰的物体细节和边界 66。但在处理无纹理、反射或透明表面时效果不佳 17,且光照被“烘焙”到纹理中。可能会出现间隙或伪影 17。
    • NeRF:在照片级渲染方面表现出色,尤其擅长处理视图相关的效果(反射、透明度)和复杂光照 7。可以生成更平滑、更连续的表示 7。在某些情况下,精细细节的几何精度可能低于高端摄影测量 15,并且尤其是在数据稀疏或几何复杂的情况下,容易产生噪声或“漂浮物”伪影 12。
  • NeRF相对于摄影测量的优势
    • 在处理视图相关的效果、反射、透明度方面表现更优 3。
    • 如果姿态已知,通常可以用更少的输入图像产生良好结果 15。
    • 更擅长捕捉焦点对象之外的周围环境 17。
    • 连续表示可以带来更平滑的新视角。
  • NeRF相对于摄影测量的劣势
    • 训练和渲染通常计算量更大 17。
    • 用于精确测量的几何精度可能较低 17。
    • 隐式表示比显式网格更难直接编辑(尽管这是一个活跃的研究领域)。
    • 更容易受到某些类型的噪声/伪影的影响 15。
  • 应用场景
    • 摄影测量:测量、测绘、文化遗产(几何精度至关重要)、游戏/资产的静态对象三维建模(可接受烘焙光照)17。
    • NeRF:视图合成、VR/AR、视觉特效、需要具有复杂光照/材质的高照片真实感的场景、动态场景可视化(使用动态NeRF变体)17。推荐用于图像有限的大范围区域测绘,尤其是在紧急情况下 15。 直接比较显示,NeRF在视觉保真度和处理复杂光学现象方面表现出色,而摄影测量通常在几何精度方面领先 15。有研究表明,在输入数据减少的情况下,NeRF在保持完整性和材质描述方面优于摄影测量 15。另有研究指出,传统摄影测量在物体细节和边界方面更清晰、更准确 66。
  • 基于体素的方法
    • 原理:将场景表示为三维离散体元(体素)网格,每个体素存储属性(例如,占用、颜色、特征)2。基于学习的体素方法使用神经网络预测这些属性。
    • 质量:可以捕捉几何形状,但高分辨率时通常会遭受离散化伪影和高内存占用的困扰 9。与神经网络配对的显式体素网格(EVG-NeRFs)旨在以更快的渲染速度达到类似NeRF的质量 44。
    • 优点:概念简单,某些操作速度快。EVG-NeRFs(例如Plenoxels 25)比原始NeRF提供了显著的速度提升 44。VoxNeRF 34 在室内场景中使用体素引导采样以提高效率。
    • 缺点:对于密集的高分辨率网格,内存可扩展性是一个主要问题 9。隐式NeRFs更为紧凑 44。如果分辨率不足,质量可能会出现块效应。
    • 与NeRF的比较:NeRF是连续的,并且对于高细节而言通常比密集体素网格更节省内存 44。然而,稀疏/显式体素方法(Plenoxels, EVG-NeRFs)可以通过牺牲纯粹的隐式特性来大幅提高速度 44。有研究指出密度体素网格可以提高NeRF模型的效率 29。还有研究讨论了生成神经体素场的问题 69。
  • 基于点云的方法
    • 原理:将场景表示为三维点的集合,每个点具有属性(颜色、法线、特征)9。基于学习的方法可能会生成点云或学习作用于点云的函数。
    • 质量:擅长捕捉原始几何形状。可能稀疏或不完整,缺乏连接信息 9。除非点云非常密集并通过高级溅射/渲染技术处理,否则新视角的渲染质量通常低于NeRF。
    • 优点:高效捕捉原始三维数据(例如来自LiDAR)。某些操作速度快。
    • 缺点:缺乏表面/连接信息 9。难以渲染复杂的视图相关效果。通常需要后处理才能创建表面。
    • 与NeRF的比较:NeRF提供了连续的表面和外观模型,更适合照片级渲染和视图相关效果。点云在几何方面更为显式。NeRF-LiDAR 71 使用NeRF生成逼真的LiDAR点云。Cues3D 56 利用NeRF的隐式场进行三维全景分割,表明NeRF的几何形状在此类任务中可能比依赖预先关联的点云更具一致性。有研究指出点云存在离散化问题且几何精度有限 9。
  • 显式基于网格的表示(学习型)
    • 原理:使用带有相关纹理的多边形网格(顶点、边、面)表示场景 9。学习型方法可能会对模板网格进行变形,预测网格参数,或学习输出网格的函数(例如通过SDF)。
    • 质量:如果制作精良,质量可以非常高。渲染在图形管线中高度优化。捕捉非常复杂的拓扑结构或精细的非流形几何可能很困难。纹理映射可能很复杂。
    • 优点:图形学中的标准表示,得到广泛支持,易于编辑,渲染高效。
    • 缺点:不规则的拓扑结构可能会妨碍与某些深度学习框架的直接集成 9。表面离散化。表示体效应(雾、烟)或复杂的透明度并非易事。
    • 与NeRF的比较:NeRF在无需显式纹理的情况下,在体效应、透明度和复杂视图相关外观方面表现出色 10。网格是显式的且可直接编辑。NeRF是连续的;网格是离散的。Mesh2NeRF 67 提出直接从现有网格数据创建辐射场,避免了多视图渲染问题,并将网格用作NeRF生成的监督。NeRF2Mesh 67 旨在从NeRF中提取网格。有讨论指出,许多文本到三维方法在转换为网格之前会生成类似NeRF的中间表示 65。
  • 原理
    • NeRF:学习一个连续的五维神经辐射场(MLP),表示体密度和视图相关的颜色。通过体射线步进进行渲染 3。
    • 3DGS:将场景表示为显式三维高斯“溅射”的集合,每个高斯具有位置、协方差(形状/方向)、颜色和不透明度等属性 17。通过使用基于瓦片的栅格化器将这些高斯投影并“溅射”到图像平面上来进行渲染 57。
  • 渲染速度与训练效率
    • NeRF:原始NeRF训练和渲染速度慢 17。存在快速变体(Instant-NGP),但在渲染方面仍可能比3DGS慢。
    • 3DGS:训练速度显著快于原始NeRF,并能实现照片级场景的实时渲染(通常>30 FPS)17。
  • 视觉保真度与细节
    • NeRF:可以实现非常高的照片级真实感和精细细节,尤其是在复杂光照和视图相关效果方面 14。能更好地模拟复杂的光照相互作用 17。
    • 3DGS:实现高照片级质量 18。非常适合景深和模糊/透明材质 17。在某些复杂的光照相互作用方面可能不如NeRF详细 17。
  • 可编辑性与交互性
    • NeRF:隐式表示使得直接编辑具有挑战性 74。编辑通常需要复杂的技术或转换为显式形式。
    • 3DGS:高斯的显式表示使其可单独操作,为直接高效的场景修改提供了优势 74。然而,早期比较指出,将对象作为一个整体进行交互(移动、缩放)很困难,因为它们是高斯云,而不是单个网格 17。3DSceneEditor 74 在3DGS的可控编辑方面取得了进展。
  • 内存占用
    • NeRF:原始NeRF很紧凑(MLP权重)。一些具有显式结构的快速变体(例如EVG-NeRFs)可能很大 44。
    • 3DGS:与密集体素/网格方法相比,内存效率可能更高 57,但涉及存储许多高斯的参数。
  • 主要应用场景
    • NeRF:高质量离线渲染、视觉特效、光照极端复杂的应用。
    • 3DGS:实时应用(VR/AR、游戏)、交互式体验、快速捕捉和可视化 17。 3DGS 5 作为NeRF的一个强有力的竞争者/替代方案出现,特别是在实时渲染方面,它通过使用显式的、对光栅化友好的表示来实现。虽然NeRF在模拟最复杂的光传输方面可能仍有优势,但3DGS在速度和质量之间提供了引人注目的平衡。

为了更清晰地展现NeRF在三维表示技术领域中的定位,下表对NeRF与关键的传统及基于学习的三维表示方法在多个核心属性上进行了对比。

特性 摄影测量 (SfM/MVS) 基于体素 (学习型) 基于点云 (学习型) 基于网格 (学习型) NeRF (神经辐射场) 3D高斯溅射 (3DGS)
基本原理 几何重建 离散体元学习 离散点集学习 多边形表面学习 隐式连续体函数学习 显式高斯基元优化
场景表示 纹理网格、点云 体素网格 (属性) 点云 (属性) 多边形网格 (纹理) MLP权重 (隐式表示密度和颜色) 3D高斯集合 (位置、协方差、颜色、不透明度)
渲染质量 (照片级) 中到高,依赖数据和后处理 中到高,受分辨率限制 中,依赖密度和渲染技术 高,依赖模型和纹理质量 非常高 非常高
视图相关效果处理 有限 (通常烘焙纹理) 有限,可学习但不如NeRF 有限 有限,需复杂材质 优秀 良好
透明度/体效应处理 困难 可表示体效应,透明度依赖实现 困难 困难,需特殊处理 优秀 优秀 (尤其模糊/半透明材质)
几何细节/精度 高 (尤其边界和锐利特征) 66 受体素分辨率限制 依赖点云密度,可能不完整 可非常高,依赖建模 良好,但精细几何可能不如摄影测量 17 良好,但可能不如NeRF精细
计算成本 (训练) SfM/MVS流程可能耗时 依赖模型和数据量 依赖模型和数据量 依赖模型和数据量 高 (原始NeRF) 38,变体可显著降低 相对较低,快于原始NeRF 17
计算成本 (渲染) 快 (标准图形管线) 依赖密度和优化,EVG-NeRFs快 44 依赖点数和渲染方法 快 (标准图形管线) 慢 (原始NeRF) 39,变体可显著提升 非常快 (实时) 18
数据需求 (图像、姿态) 较多图像,姿态由SfM估计 依赖任务,通常需要多视图 依赖任务,通常需要多视图或直接点云输入 依赖任务,通常需要多视图或直接网格输入 较多图像和精确姿态 (原始NeRF) 19 多视图图像和姿态 (类似NeRF)
编辑/操控便捷性 良好 (显式网格) 体素级编辑,整体操控依赖工具 点级编辑,整体操控依赖工具 非常好 (标准建模工具) 困难 (隐式表示) 74 逐渐改善,高斯可单独操控,但整体编辑仍在发展 17
主要优势 几何精度高,成熟流程 可表示内部结构,某些变体速度快 直接捕捉三维结构,某些传感器输入直接 行业标准,编辑方便,渲染高效 照片级真实感,视图相关效果好,连续表示 实时渲染,高质量,训练快
主要劣势 难处理无纹理/反光表面,光照烘焙 17 内存消耗大,分辨率与内存权衡 44 缺乏表面信息,渲染复杂 9 难表示复杂拓扑和体效应 训练渲染慢 (原始版),编辑难,几何精度可能非最优 17 复杂光照不如NeRF,编辑仍在发展,可能存在伪影 17
典型应用场景 测绘,文化遗产,静态资产建模 17 医学成像,某些快速预览 LiDAR数据处理,机器人感知 游戏,动画,CAD 视图合成,VFX,VR/AR内容 18 实时VR/AR,游戏,快速可视化 17

尽管NeRF取得了显著进展,但其在广泛应用中仍面临若干挑战。这些挑战并非孤立存在,而是相互关联。例如,对密集数据的需求 32 因静态场景假设 31 而加剧,因为动态元素实际上减少了一致视图的数量。缓慢的训练速度 38 使得针对少样本学习或动态场景的解决方案的迭代更加困难。一个领域的进展(例如速度)可以加速其他领域的进展(例如动态NeRF研究变得更可行)。反之,一个领域的持续挑战可能会阻碍另一个领域的解决方案。因此,能够同时解决多个挑战的整体解决方案可能更具影响力。例如,核心效率的提升可能会在各种NeRF子问题上释放更快的进展。

此外,虽然NeRF在受控环境中展示了令人印象深刻的能力,但诸如对退化视图的鲁棒性 9、不准确的姿态 9 以及复杂的真实世界光照 9 等挑战,代表了其在广泛、可靠的真实世界部署中所面临的“最后一英里”障碍。实验室的NeRF结果通常令人惊叹,使用的是具有良好姿态的干净数据集。然而,调查 6 将“退化视图”、“不准确的相机姿态”和“复杂光照效应”列为真实世界的挑战。真实世界的数据是混乱的:相机存在运动模糊,图像有噪声,光照不受控制,用于姿态估计的SfM并非总是完美的。NeRF在核心能力方面已经取得了很大进展。然而,使其在各种不完美条件下“在野外”可靠工作,是实现稳健实际应用的剩余且通常困难的部分。未来的研究可能会重点关注鲁棒性和适应性,使NeRF成为在精选数据集之外的可靠工具,这对于自主系统或一般消费者使用至关重要。

NeRF的核心优势,即其隐式表示,同时也是其一些关键限制的根源,特别是可编辑性 74 和可解释性。MLP的“黑箱”特性使得直接操作变得困难。NeRF的隐式MLP以连续且紧凑的方式编码场景 3,这对于质量和存储而言是一个优势。然而,编辑NeRF很困难,因为几何和外观纠缠在网络权重之内 74。正是使NeRF强大的特性(隐式学习复杂函数)也使其变得不透明且难以以结构化方式修改。隐式特性带来了好处(平滑度、从学习到的先验中获得的细节),但也带来了缺点(可编辑性、控制、可解释性)。隐式表示的强大功能与显式控制需求之间的这种张力是深度学习中反复出现的主题。未来的NeRF研究可能会探索两全其美的方法,或许通过混合表示或用于“解耦”和控制学习到的隐式函数的新方法。

原始NeRF的训练速度非常慢(在单个GPU上对中等场景需要1-2天 11;在RTX 3060上可能长达10-12小时 40),渲染速度也很慢(例如每张图像30秒 39)。尽管像Instant-NGP 26 和Plenoxels 25 这样的变体提供了巨大的速度提升,但在各种硬件(尤其是边缘设备 14)上为高分辨率、复杂的NeRF实现真正的实时渲染(例如>30 FPS)仍然是一个挑战。MixRT 14 旨在通过混合神经表示(低质量网格、位移贴图、压缩的NeRF)并针对光栅化器进行优化,以在边缘设备上实现实时渲染。速度是主要的实际瓶颈 11。即使进行了加速,对于非常大或动态的场景,计算负载仍然可能很高,这限制了交互性和在资源受限平台上的部署。这是当前研究的一个关键焦点 6。

NeRF通常需要密集的高质量输入图像集(数十到数百张)以及精确的相机姿态 6。在输入视图稀疏的情况下,性能会显著下降(出现伪影、模糊、几何形状差)6,这被称为“少样本NeRF”问题。视图不足可能导致过拟合 38。针对少样本NeRF的研究(见3.5节)旨在解决这个问题,但这仍然是一个活跃的挑战 32。对大量图像的需求限制了NeRF在随意捕捉场景或无法进行大量数据采集的情况下的使用。提高对稀疏数据的鲁棒性对于更广泛的适用性至关重要。

原始NeRF假设场景是静态的;任何移动都会导致伪影,如重影或模糊 2。动态NeRF变体(见3.3节)虽然存在,但更为复杂,并有其自身的挑战:处理复杂的非刚性变形、拓扑变化 45,以及建模由运动引起的表观变化(例如镜面反射 47),同时还面临计算成本和数据需求的增加。现实世界中的场景很少是完全静态的(光照变化、微小移动)31。大多数现实世界的场景都涉及某种形式的动态性。稳健有效地建模通用动态场景是NeRF当前一个主要的研究方向。

虽然NeRFs能够生成照片般逼真的视图,但其底层的几何精度有时可能不完美,尤其对于精细结构或在稀疏观察区域 9。NeRF可能难以处理“漂浮物”(虚假的离散密度)或“背景坍塌”(远距离表面错误地显示为靠近相机的半透明云),尤其是在模糊场景中 36。Mip-NeRF 360的正则化器对此有所帮助 36。重建高度详细的植物几何形状(例如细小的树枝)也具有挑战性 12。传统摄影测量有时可以提供更清晰、更准确的边界 66。针对光度损失进行优化并不总能保证完美的几何重建。在保证视觉质量的同时确保高几何保真度对于需要精确测量或交互的应用非常重要。

NeRFs在MLP权重中学习隐式表示,这使得直接编辑(例如移动对象、更改材质)比显式表示(如网格)更加困难 11。编辑通常需要专门的技术、转换为显式形式或重新训练。这对于内容创建工作流程是一个显著的限制 74。动态NeRF被视为向可编辑NeRF迈出的一步 2。为了使NeRF成为图形和设计领域真正通用的工具,直观高效的编辑能力至关重要。这是未来研究的一个关键领域。

标准的NeRF是针对每个场景进行训练的,并将特定场景的几何形状和光照“烘焙”进去;它不能泛化到新的、未见过的场景或对象 11。像PixelNeRF 23 这样的变体通过以图像特征为条件来实现泛化,从而允许对新场景进行零样本或少样本重建。在保持高保真度的同时实现跨不同场景和对象的稳健泛化是一个持续的挑战 9。逐场景优化限制了其可扩展性,如果需要对许多不同场景进行建模。可泛化的NeRF可以学习关于三维形状和外观的通用先验知识。

  • 退化视图:处理输入图像中的模糊、噪声、光照不足等问题。
  • 不准确的相机姿态:对姿态估计误差的鲁棒性。
  • 复杂光照效果:超越简单的视图依赖性,例如全局光照、焦散。
  • 不确定性量化:估计渲染像素或重建几何形状的置信度。
  • 医学成像的特殊性 60:内部结构要求、对象边界定义、颜色/密度在医学背景下的重要性。

NeRF研究的未来轨迹指向一个宏伟的目标:一个能够同时实现实时性能、易于编辑、能够以最少数据泛化到新场景,并且能够以完全的照片级真实感处理复杂动态内容的系统。效率、动态性、语义理解和生成等各个研究方向都是这个宏大蓝图中的一部分。实现这样一个系统将彻底改变计算机图形学和视觉领域,并可能对依赖三维建模、模拟和可视化的许多行业产生深远影响,从娱乐、工程到教育和电子商务。

NeRF研究的轨迹清晰地显示出重点的转变:最初主要关注从图像中重建现有场景,现在越来越多地探索生成能力(从头开始或基于各种输入创建新颖的场景/对象 4)和语义理解(解释和标记场景内容 4)。这种演变代表了从被动表示到主动创建和解释的转变。NeRF正从一个纯粹的“渲染/重建引擎”演变为一个更智能的系统,能够理解、操纵甚至想象三维内容。这使NeRF成为更广泛的人工智能驱动内容创作(AIGC)革命中的关键技术,将其影响力从图像和文本扩展到三维领域,对数字世界的构建和交互方式产生深远影响。

随着NeRF试图解决更复杂的任务(如动态场景、少样本学习、生成),数据多样性、结构化先验(几何、语义)和复杂的正则化的作用变得更加关键。仅仅扩大MLP的规模通常是不够的。少样本NeRF明确使用先验或正则化 32。动态NeRF通常涉及复杂的形变模型或场景分解策略 45。生成式NeRF依赖大型数据集来学习分布 64。仅仅在稀疏或动态数据上训练原始NeRF会产生较差的结果。为了解决病态问题(从少量数据重建、建模复杂运动),模型需要的指导不仅仅是来自有限观测的原始像素损失。这种指导来自学习到的先验、架构偏差或显式正则化。NeRF应用越具雄心,使其工作所需的“脚手架”(先验、正则化、数据管理)就越复杂。这反映了机器学习中的一个普遍趋势,即解决更困难、更模糊的问题需要超越纯粹数据驱动的方法,以纳入更多的领域知识和结构约束,无论是显式的还是从大量多样化数据中隐式学习到的。

尽管取得了进展(Instant-NGP, Plenoxels),但在不同场景、分辨率和硬件(尤其是移动/边缘设备 14)上实现实时性能仍然是一个主要目标 1。重点在于更快的训练收敛和渲染速度 1,以及针对特定硬件的优化(例如WebGL 14,GPU RT核心 16)。潜在突破可能来自新颖的神经架构、更高效的显式数据结构(如改进的哈希网格或体素方法 26)以及硬件加速。

提高在以下条件下的性能:

  • 退化的输入视图:低光照、模糊、噪声、传感器伪影 6。
  • 不准确或稀疏的相机姿态:减少对完美SfM的依赖 6。
  • 复杂和动态的光照:超越简单的视图依赖性,处理全局光照、阴影以及随时间变化的光照 6。NeRF-W 11 在处理非受控多视图集合方面迈出了一步。 潜在突破可能包括更好的传感器建模、场景与捕获参数的联合优化,以及整合更复杂的光度模型。

超越当前动态NeRF的局限性,以处理:

  • 高度复杂的非刚性变形和拓扑变化 2。
  • 具有对象交互的长期动态场景。
  • 高效表示和渲染动态内容,可能实现流式传输(NeRFPlayer 49)。 动态NeRF被视为可编辑NeRF的基础 1。潜在突破可能来自新的变形模型、学习运动先验以及更好的时间相干性机制 31。

超越纯粹的视图合成,赋予NeRF语义理解能力:

  • 在NeRF表示内进行对象检测、分割和标记 6。
  • 实现语义编辑:“移除这辆车”,“改变那把椅子的颜色”。
  • 基于语义部分的对象组合和场景操作(Ref-NeRF中的可解释部分 16,3DGS中的编辑 74)。 潜在突破可能包括几何、外观和语义的联合学习,以及隐式表示的新交互范式。

开发基于NeRF的生成模型(例如GAN、扩散模型),以从头开始或基于各种输入(文本、草图)合成新颖的三维场景或对象 9。提高对生成过程的可控性。应用于游戏、VR和数字艺术的三维资产生成 62。潜在突破可能在于更稳定和高保真的三维生成模型,以及直观的控制机制。

将NeRF更深入地集成到机器人技术中,以改进感知、建图、定位(SLAM)、规划和控制 6。使用NeRF作为高度逼真的模拟环境来训练机器人代理 48。实现与NeRF表示环境的实时交互。潜在突破可能包括能够从传感器流实时更新的NeRF,以及主动NeRF重建(代理决定接下来观察哪里)。

随着NeRF在创建逼真三维内容方面的能力越来越强,关于滥用(例如生成虚假环境、捕获场景中的隐私)的考虑变得越来越重要 18。确保道德的数据采集和使用,尤其是在训练生成模型时 18。潜在突破可能包括用于NeRF生成内容的水印或验证技术,以及保护隐私的NeRF方法。

将NeRF应用扩展到新的领域,如天文学、气候变化研究 75、行星表面重建、卫星数据可视化 76、数字保存和汽车设计 63。潜在突破可能在于针对特定领域的NeRF调整,这些调整结合了与这些领域相关的物理约束或属性。

神经辐射场(NeRF)的引入,标志着三维场景表示从传统的显式方法向隐式的、连续的体表示方法的范式转变。其核心成就,即从稀疏的二维图像集合中实现高保真度、照片般逼真的新视角合成,并以前所未有的质量捕捉视图相关效应,已在计算机视觉和图形学领域产生了深远影响。自诞生以来,NeRF技术经历了快速的演进,研究人员针对其初始版本的局限性(如计算效率低、仅限静态场景、对数据量要求高等)开发了众多变体。这催生了一个多样化的NeRF生态系统,涵盖了旨在提升速度(如Instant-NGP、Plenoxels)、处理动态场景(如Nerfies、D-NeRF)、重建大规模环境(如Block-NeRF、Mip-NeRF 360)以及提高数据效率(如各种少样本NeRF方法)的创新解决方案。

NeRF不仅仅是一种单一算法,更演变成一种平台技术,在其核心原理(隐式神经表示、体渲染)之上构建了广泛的应用和进一步的研究。这种适应性使其能够应对众多不同的问题。大量的变体和多样化的应用领域证明了这一点 6。这表明NeRF将产生持久的影响,其核心思想将继续被调整和扩展到新的领域,并与其他技术相结合,而不是昙花一现的趋势。

NeRF的未来发展将继续致力于使其更快、更鲁棒、更通用。一个核心目标是开发出能够取代或超越传统显式渲染技术性能的方法 2。特别地,动态NeRF因其能够表示更丰富的信息并在更广泛的应用领域中使用,被认为具有巨大的未来潜力,并且是可编辑NeRF的基础 1。

对NeRF与人工智能更深层次的整合,以实现语义理解、内容生成和智能交互,是未来研究的重要方向。这将推动NeRF从纯粹的场景重建工具向能够理解和操纵三维世界的智能系统转变。整个NeRF事业可以被视为计算机科学和媒体领域长期追求完美捕捉、表示和数字再现现实的一部分。NeRF在视觉保真度方面代表了这一追求的重大飞跃 1。其应用旨在创建“栩栩如生的环境” 23、“逼真的虚拟环境” 23 和“数字孪生” 54,所有这些都指向了以越来越高的准确性和可信度弥合数字与现实之间差距的愿望。这一追求推动了计算机图形学从简单的线框图到纹理多边形,再到基于物理的渲染,现在又发展到神经渲染。NeRF是一个里程碑,但这一追求仍将继续。未来的工作可能会超越视觉真实感,将其他感官模式、物理行为和更深层次的语义理解也包括进来,所有这些都将有助于构建更全面、更具交互性的数字现实复制品。

总而言之,NeRF已证明其作为一项基础技术的地位,它将持续塑造三维计算机视觉、图形学、机器人技术和沉浸式体验的未来。随着研究的不断深入和技术的不断成熟,NeRF有望在更多领域释放其变革潜力。