SQA-040
[Paper] The Unreasonable Effectiveness of Deep Features as a Perceptual Metric
经典之作,LPIPS (Learned Perceptual Image Patch Similarity)
主要看一下具体怎么做的
LPIPS
先使用 pretrained VGG network (trained on classification)

然后在所有 layer 上先 normalize on channel, 然后称一个权重 $w$, 最后计算加权的 L2 距离。对所有层和 spatial 位置求平均
那么这个权重 $w$ 怎么来呢?实际上这个还是额外学出来的,使用了他们提出的若干 setting. 对 VGG 来说,可学习的 $w$ 一共有1472个参数.