ZHH-005
[Paper] Pixel Recurent Neural Networks
核心思想:使用神经网络 (RNN/CNN) 模拟每一个像素condition on之前的所有像素的categorical distribution。
提出了三种Pixel RNN模型(Row LSTM, diag LSTM, multi-scale),和Pixel CNN模型。
- Row LSTM
- input-to-state是一个1x1卷积;
- state-to-state是一个一维卷积;
- 每一次计算之后,向下移动一行;
- 这样,每一个像素的reception field是一个向上的三角区域
- Diagonal BiLSTM
- input-to-state是一个1x1卷积;
- state-to-state是一个一维卷积,但是是沿着对角线方向进行(实现的时候可以shift一下来实现);
- 每一次计算之后,向右下移动一个像素;
- 这样,每一个像素的reception field是左上角的所有像素
- 再对右上角做一次,就可以condition on所有的像素
- Multi-scale
- unconditional地生成 $s\times s$ 的低分辨率图像;
- 根据这个低分辨率图像,生成高分辨率图像,这通过1x1卷积直接将低分辨率图像的每一个像素映射到高分辨率图像的一个区域来实现;
- Pixel CNN
- 使用Masked Convolution来实现;
- 效率高,但结果略差