SQA-024
[Paper] Jet: A Modern Transformer-Based Normalizing Flow
另一篇 Jet, 好像 Jetformer 使用了 Jet 的架构. 但是这篇很唐, 都 24 年了还只比 NLL. 令人怀疑没做 work.
Method
使用 Normalizing Flow. 还是使用 coupling layer, 但是网络换成了 ViT.
做法是 patchify 后在 channel 维度上 split.
每次的 split 是随机选的.
其中 scale 的 parametrization 使用的是 $2\sigma(s)$. 这个有点巧妙, 在 0 的时候对应恒等变换, 并且还能保证最多翻一倍.
以及初始化很重要, 作者把 ViT 的最后一层初始化成 0.
这里没有 noise aug, 所以作者说在 ImageNet 上面都快速过拟合. 所以作者的解决方法是在 ImageNet21k 上训练. 唐
总体来说, 不一定有参考价值, 毕竟甚至都没有衡量生成质量.