GroupNorm 的原始 paper (by Kaiming). 这个 paper 主要的 context 是 object detection / segmentation 之类的.

Problem

BatchNorm 很厉害, 但是问题是使用很小的 batch size (1 或 2) 的时候失效. 并且好像 cv 某些领域确实需要很小的 batch size.

Method

image not found

就是把 channel 分组, 对组内求 stats.

注意 $G=1$ 的时候是 LayerNorm, $G=C$ 的时候是 InstanceNorm.

GroupNorm 提供了更多表达力. 但是不像 BatchNorm 有 regularization 的效果.

image not found

总之就是小 batch size 也能 work 的很好 (不一定能打过 BN), 但是能比 LN 或者 IN 好.