Reading LucidDreamer -- Towards High-Fidelity Text-to-3D Generation via Interval Score Matching

论文地址: https://arxiv.org/abs/2311.11284

作者:Yixun Liang Xin Yang, Jiantao Lin, Haodong Li, Xiaogang Xu, Yingcong Chen

发表: CVPR 2024 Highlight

Code:https://github.com/EnVision-Research/LucidDreamer


如果你去做这个任务,会怎么做?作者做的方法和你想的有什么差异?

  • 解决SDS的oversmooth的问题。其实我之前探索过这个问题,是从SDS的公式分解出发的,发现跟non-increasing timestep sampling结合,在不同的时间步应用不同的SDS子项,能解决一定的问题。但是仍然只是mitigate,不是solve,我觉得这种 从多次2D生成结果中收敛出一个3D结果 的方式,免不了被平均,得到smooth后的结果,似乎是SDS的内在缺陷🤔除非改进成非optimize的方法;那不就换成了feed forward的思路了嘛

Why:

  • 从2D diffusion model发展以来,基于SDS的方法可以把2D生成结果lift到3D,从而实现text-to-3D generation。这种生成结果富有想象力,而且只需要文本描述这种直观的输入,这类方法得到迅速的发展和关注。
  • 但是基于SDS的方法有普遍的问题,那就是over-smoothing,过平滑。
  • 这篇文章揭示了SDS背后的机制:把3D模型渲染的图像跟2D的伪ground truth相匹配,这种伪ground truth就是diffusion model的生成结果。问题在于,生成的伪GT通常是不一致的,而且有低质量。然而所有的这些伪GT所提供的更新方向全都提供给3D模型,就会让最终结果受到一个平均效应的影响,趋向于过平滑以及缺乏细节。
  • 这篇文章还分析了伪GT效果不好的两个原因:
    1. 伪GT是diffusion model的一步重建结果,有很高的重建误差
    2. diffusion 路径的内在随机性让这些伪GT在语义上不同,这会导致平均效应,以及最终的的过平滑结果

What:

  • 为了解决上述问题,这篇文章提出中间分数匹配,Interval Score Matching(ISM),从两个有效的机制上提高了SDS的效果:
    1. 通过应用DDIM inversion,ISM提供了一个可逆转的diffusion路径,减轻了平均效应
    2. 不同于让3D模型渲染的2D图像直接跟伪GT相匹配,ISM是让diffusion路径中的两个中间步相匹配,这样就能避免有高误差的一步重建带来的影响
  • ISM相比SDS,稳定地实现了更高的真实性和更多的细节。
  • 此外,ISM还跟3D Gaussian Splatting适配,新的3D生成模型实现了超过sota的效果。之前的sota需要多步训练,但本文只需要一步

读前疑问:

  1. DDIM inversion跟SDS有啥关系,在这发挥了什么作用?SDS 可以看作一种高variance的DDIM,或者说ODE,用DDIM inversion来解决random noise引入的随机方差的问题。这个思路后来已经在很多篇论文里体现了,刷新对SDS的理解……
  2. ISM跟diffusion的中间步的结果有关,而不再是最终重建好的图片,是这个意思吧?但是怎么做到的呢,是纯公式上的变化,还是整个机制流程会改变呢?公式上的
  3. 跟timesteps有关系吗,有没有考虑不同timesteps guidance的区别?没。

How:

好多公式,直接写本本上了……