另一篇 Jet, 好像 Jetformer 使用了 Jet 的架构. 但是这篇很唐, 都 24 年了还只比 NLL. 令人怀疑没做 work.

Method

使用 Normalizing Flow. 还是使用 coupling layer, 但是网络换成了 ViT.

做法是 patchify 后在 channel 维度上 split.

每次的 split 是随机选的.

其中 scale 的 parametrization 使用的是 $2\sigma(s)$. 这个有点巧妙, 在 0 的时候对应恒等变换, 并且还能保证最多翻一倍.

以及初始化很重要, 作者把 ViT 的最后一层初始化成 0.

这里没有 noise aug, 所以作者说在 ImageNet 上面都快速过拟合. 所以作者的解决方法是在 ImageNet21k 上训练. 唐

总体来说, 不一定有参考价值, 毕竟甚至都没有衡量生成质量.