papereading

论文阅读顺序：标题+作者摘要结论导言相关工作模型实验评论 Multi-headed Attention: 为了模拟CNN可以达到多通道输出 Model Architecture 自回归模型：(对于decoder)过去时刻的输出也会作为当前时刻的输入 LayerNorm vs. BatchNorm Batch: What is Batch? 一捆Data，以便处理时并行 Normalization: 均值化0，方差化1 BatchNorm就是对每个Batch(包含了不同的样本)做Normalization LayerNorm就是对每个样本(包含了样本的特征feature)做Normalization Attention & Multi-Head 计算图：关注Attention算法：Key-Value pair 的作用，与Query对权重的影响 FFN: = MLP Positional Encoding: 处理使Attention能获取时序信息实验： Dropout: 大量使用，做正则化，Dropout的意义？评论： Transformer在大数据集上还未出现数据饱和，也即，没有出现过拟合等现象