Reading Few-shot Video-to-Video Synthesis

论文地址:http://arxiv.org/abs/1910.12713

作者:Ting-Chun Wang, Ming-Yu Liu, Andrew Tao, Guilin Liu, Jan Kautz, Bryan Catanzaro

发表: NeurIPS 2019

Project: https://nvlabs.github.io/few-shot-vid2vid

Github:https://github.com/NVLabs/few-shot-vid2vid


如果你去做这个任务,会怎么做?作者做的方法和你想的有什么差异?

首先这个任务选题对我来说很新,我之前都没有意识到过这方面的问题。如果告诉我有这样的问题,需要去解决的话,我的直观的想法会受到这篇论文作者的上一篇中提到的 特征嵌入方法 所影响:会想也通过将一类物体的特征编码起来,然后通过学习不同个体的特征编码,来实现不同风格的视频生成。

Why:

当今vid2vid方法的两个局限性:

  1. 需要大量数据,尤其是需要生成的这个人的视频数据
  2. 泛化能力有限,比如说只能在训练集中包含的人上生成新的pose-to-human视频,不能泛化到训练集中不存在的人上

所以这篇论文就是想解决这两个问题。

What:

  1. 任务是Video-to-video synthesis,即利用输入的语义视频(例如人的姿势、街景),生成写实的视频。例如说,人体姿势生成的任务,就是首先收集一个人做大量不同动作的视频,作为训练集;然后向模型中输入动作序列,让模型生成该人做该动作的视频。再比如街景生成,也是以大量街景视频作为训练集,然后向模型中输入语义mask序列,让它生成风格类似的全新街景。

  2. 这篇论文提出了一个网络,其中包括一个网络权重生成模块(novel network weight generation module)和attention机制

  3. 这个方法的创新点在于,只需要在测试时,向模型提供少量的在训练集中没出现过的新的人物的图像,它就能生成这个新的人的视频。

    image-20220513171420180
    image-20220513171420180

    上图中,左边是现存方法,它们基本上对于每个人,都需要在单独的训练集上训练。右边是这篇论文提出的方法,只需要训练一次,然后输入一些示范图像,就可以泛化到新的人上。

读前疑问:

  1. 说是利用少量的新的人物的示范图像,生成网络权重。意思是以原本的vid2vid网络的权重作为输出?为什么?我的更直观的想法是,直接用一个新网络,学习新人物的图像,然后把output给concat或者加进旧网络的output中……另外,直接作用于网络权重上,在我的粗浅理解中,会不会造成信息的损失呢?还是说本质上没差? related work里提到这类网络属于adaptive network,跟常规网络相比有不同的inductive bias(想想也是),有对应的应用任务。或许我之后再了解一下这块。
  2. 标题中的few-shot是什么意思,就是指更少的data、更高的泛化性吗?这是一类任务吧,从少量标注的样本中学习的意思。这个确实就是啊,只需要一点点示范图像,就可以生成图中这个人/物的新video。
  3. 作者的上篇论文是利用gan,这篇又用上了attention,为什么作出这样本质的改变呢?

How:

  1. 视频生成任务可以分成3类:
    1. unconditional synthesis:随机生成视频片段
    2. future video prediction
    3. vid2vid:把语义输入转变成现实风的视频。这篇论文就是属于这个任务,不过它聚焦的点在于few shot,即通过在测试的时候输入少量图像,让生成的视频可以泛化到没见过的domain上
  2. vid2vid是前一篇工作的内容啦。reference:Reading vid2vid

  3. few-shot本质上就是多加了个网络E,用来生成原补洞网络H的权重。至于原本还有两个网络W和M,他们都不需要改动,因为他们都是基于上一帧生成的图像进行变形的,代表一种运动,而和视频本质的内容没有关系。

  4. 精髓一图:

    image-20220810193845710
    image-20220810193845710
  5. 用最新的SOTA语义图像生成模型SPADE代替了上一篇论文中的网络H。SPADE包含several spatial modulation branches and a main image synthesis branch。不过网络E只更新SPADE模型中的spatial modulation branches的权重,因为1这样量比较小,2这样可以避免一个直接从input image到output image的短路(我尚没有深究原因)。

  6. 权重生成模块E。