划分Patch:为了减少序列长度,按像素计算长度过长,将16x16的Patch作为一个元素,生成序列
Transformer vs. CNN: Transformer相比卷积缺少归纳偏置(inductive biases, 先验知识或者先验假设)
- CNN的inductive biases
- Locality 局部性
- translation equivalence 平移不变性
Transformer在大规模数据集上预训练,可以达到归纳偏置d
划分Patch:为了减少序列长度,按像素计算长度过长,将16x16的Patch作为一个元素,生成序列
Transformer vs. CNN: Transformer相比卷积缺少归纳偏置(inductive biases, 先验知识或者先验假设)
Transformer在大规模数据集上预训练,可以达到归纳偏置d