层级式

Shift Window

在小窗口上计算self attention

patch merging 类似于 max pooling

transformer 目的:更好理解上下文

主要对比:ViT

​ 实现了多尺寸的特征