层级式 Shift Window 在小窗口上计算self attention patch merging 类似于 max pooling transformer 目的:更好理解上下文 主要对比:ViT 实现了多尺寸的特征