图片和文本的latent放在同一个transformer里;对于文本,目标是next-token prediction;而对于图片,是MaskGIT目标(预测 masked token)。在生成的时候,如果是文本,就是标准的autoregressive;而如果是图片,就开始mask-GIT式的生成。