ZHH-012

图片和文本的latent放在同一个transformer里；对于文本，目标是next-token prediction；而对于图片，是MaskGIT目标（预测 masked token）。在生成的时候，如果是文本，就是标准的autoregressive；而如果是图片，就开始mask-GIT式的生成。