经典之作,LPIPS (Learned Perceptual Image Patch Similarity)

主要看一下具体怎么做的

LPIPS

先使用 pretrained VGG network (trained on classification)

image.png

然后在所有 layer 上先 normalize on channel, 然后称一个权重 $w$, 最后计算加权的 L2 距离。对所有层和 spatial 位置求平均

那么这个权重 $w$ 怎么来呢?实际上这个还是额外学出来的,使用了他们提出的若干 setting. 对 VGG 来说,可学习的 $w$ 一共有1472个参数.