Transformer
论文阅读顺序: 标题+作者 摘要 结论 导言 相关工作 模型 实验 评论 Multi-headed Attention: 为了模拟CNN可以达到多通道输出 Model Architecture 自回归模型 :(对于decoder)过去时刻的输出也会作为当前时刻的输入 LayerNorm vs. BatchNorm Batch: What is Batch? 一捆Data,以便处理时并行 Normalization: 均值化0,方差化1 BatchNorm就是对每个Batch(包含了不同的样本)做Normalization LayerNorm就是对每个样本(包含了样本的特征feature)做Normalization Attention & Multi-Head 计算图: 关注Attention算法:Key-Value pair 的作用,与Query对权重的影响 FFN: = MLP Positional Encoding: 处理使Attention能获取时序信息 实验: Dropout: 大量使用,做正则化,Dropout的意义? 评论: Transformer在大数据集上还未出现数据饱和,也即,没有出现过拟合等现象