Transformer

论文阅读顺序: 标题+作者 摘要 结论 导言 相关工作 模型 实验 评论 Multi-headed Attention: 为了模拟CNN可以达到多通道输出 Model Architecture 自回归模型 ​ :(对于decoder)过去时刻的输出也会作为当前时刻的输入 LayerNorm vs. BatchNorm ​ Batch: What is Batch? 一捆Data,以便处理时并行 ​ Normalization: 均值化0,方差化1 ​ BatchNorm就是对每个Batch(包含了不同的样本)做Normalization ​ LayerNorm就是对每个样本(包含了样本的特征feature)做Normalization Attention & Multi-Head 计算图: 关注Attention算法:Key-Value pair 的作用,与Query对权重的影响 FFN: = MLP Positional Encoding: 处理使Attention能获取时序信息 实验: Dropout: 大量使用,做正则化,Dropout的意义? 评论: Transformer在大数据集上还未出现数据饱和,也即,没有出现过拟合等现象

九月 17, 2022 · 1 分钟 · 51 字 · Me

GAN

questions $G$与$D$对抗达成纳什均衡,何为纳什均衡 KL散度 琴声-香农散度 JS散度 自监督学习

九月 17, 2022 · 1 分钟 · 6 字 · Me