Reading LucidDreamer -- Towards High-Fidelity Text-to-3D Generation via Interval Score Matching

发表 2024-08-01 分类 Computer Notes 阅读量: Valine: 字数: 1.4k 阅读时长 ≈ 1 分钟

发表： CVPR 2024 Highlight

如果你去做这个任务，会怎么做？作者做的方法和你想的有什么差异？

解决SDS的oversmooth的问题。其实我之前探索过这个问题，是从SDS的公式分解出发的，发现跟non-increasing timestep sampling结合，在不同的时间步应用不同的SDS子项，能解决一定的问题。但是仍然只是mitigate，不是solve，我觉得这种从多次2D生成结果中收敛出一个3D结果的方式，免不了被平均，得到smooth后的结果，似乎是SDS的内在缺陷🤔除非改进成非optimize的方法；那不就换成了feed forward的思路了嘛

Why：

从2D diffusion model发展以来，基于SDS的方法可以把2D生成结果lift到3D，从而实现text-to-3D generation。这种生成结果富有想象力，而且只需要文本描述这种直观的输入，这类方法得到迅速的发展和关注。
但是基于SDS的方法有普遍的问题，那就是over-smoothing，过平滑。
这篇文章揭示了SDS背后的机制：把3D模型渲染的图像跟2D的伪ground truth相匹配，这种伪ground truth就是diffusion model的生成结果。问题在于，生成的伪GT通常是不一致的，而且有低质量。然而所有的这些伪GT所提供的更新方向全都提供给3D模型，就会让最终结果受到一个平均效应的影响，趋向于过平滑以及缺乏细节。
这篇文章还分析了伪GT效果不好的两个原因：
1. 伪GT是diffusion model的一步重建结果，有很高的重建误差
2. diffusion 路径的内在随机性让这些伪GT在语义上不同，这会导致平均效应，以及最终的的过平滑结果

为了解决上述问题，这篇文章提出中间分数匹配，Interval Score Matching（ISM），从两个有效的机制上提高了SDS的效果：
1. 通过应用DDIM inversion，ISM提供了一个可逆转的diffusion路径，减轻了平均效应
2. 不同于让3D模型渲染的2D图像直接跟伪GT相匹配，ISM是让diffusion路径中的两个中间步相匹配，这样就能避免有高误差的一步重建带来的影响
ISM相比SDS，稳定地实现了更高的真实性和更多的细节。
此外，ISM还跟3D Gaussian Splatting适配，新的3D生成模型实现了超过sota的效果。之前的sota需要多步训练，但本文只需要一步

读前疑问：

DDIM inversion跟SDS有啥关系，在这发挥了什么作用？SDS 可以看作一种高variance的DDIM，或者说ODE，用DDIM inversion来解决random noise引入的随机方差的问题。这个思路后来已经在很多篇论文里体现了，刷新对SDS的理解……
ISM跟diffusion的中间步的结果有关，而不再是最终重建好的图片，是这个意思吧？但是怎么做到的呢，是纯公式上的变化，还是整个机制流程会改变呢？公式上的
跟timesteps有关系吗，有没有考虑不同timesteps guidance的区别？没。

好多公式，直接写本本上了……