Transformer

论文阅读顺序: 标题+作者 摘要 结论 导言 相关工作 模型 实验 评论 Multi-headed Attention: 为了模拟CNN可以达到多通道输出 Model Architecture 自回归模型 ​ :(对于decoder)过去时刻的输出也会作为当前时刻的输入 LayerNorm vs. BatchNorm ​ Batch: What is Batch? 一捆Data,以便处理时并行 ​ Normalization: 均值化0,方差化1 ​ BatchNorm就是对每个Batch(包含了不同的样本)做Normalization ​ LayerNorm就是对每个样本(包含了样本的特征feature)做Normalization Attention & Multi-Head 计算图: 关注Attention算法:Key-Value pair 的作用,与Query对权重的影响 FFN: = MLP Positional Encoding: 处理使Attention能获取时序信息 实验: Dropout: 大量使用,做正则化,Dropout的意义? 评论: Transformer在大数据集上还未出现数据饱和,也即,没有出现过拟合等现象

九月 17, 2022 · 1 分钟 · 51 字 · Me

GAN

questions $G$与$D$对抗达成纳什均衡,何为纳什均衡 KL散度 琴声-香农散度 JS散度 自监督学习

九月 17, 2022 · 1 分钟 · 6 字 · Me

NTU ML

This note is the lecture note for 李宏毅(NTU) machine learning 2022 Lecture 1:Introduction of Deep Learning Preparation Pre1 机器学习实际上是通过机器构造一个隐式的函数 two main function of machine learning Regression: The function outputs a scalar Classification Structured Learning: create something with structure(image, document) Label 学习中的真实值$y$(预测值为$\hat{y}$) ​ feature input所蕴含的某种信息 Does local minima truly cause the problem? Pre2 多个piecewise linear curve可以逼近任意曲线 用sigmoid函数表达一个piecewise linear curve ​ epoch与batch ​ Class Material week1 Supervised Learning, Self-supervised Learning, RL… pytorch1 Lecture 2:What to do if my network fails to train Preparation Class Material week2 模型复杂度model complexity...

九月 15, 2022 · 1 分钟 · 91 字 · Me

question

几种normalization方法及其效果 深度学习中 到底什么是feature? 包括但不限于线性回归,逻辑回归, knn,kmeans,神经网络,svm,决策树与随机森林,贝叶斯分类等实现方法 siren激活函数 Implicit Neural Representations with Periodic Activation Functions

九月 15, 2022 · 1 分钟 · 13 字 · Me

9-15-weekly_report

每周到周报时间都自然而然地找各种理由推脱推迟然后抛之脑后了,但周记这种形式还是为了记录学习路径和激励自己学有所获日有所长,应尽力执行。 DL 通过吴恩达和李沐两个教程简单学习了RNN, attention, transformer一系列网络的设计原理和大致模型,但仍未上手搭建。今后应尽量尝试在hugging face或kaggle等平台尝试参加比赛,填补实践和代码的空白。 接下来打算学习李宏毅的机器学习,一方面听说讲得更易于理解,一方面作为设置完善的大学课程有更完备的lab, hw设置,而且课程进度很快,内容很新,值得一学。 graphics 发现华科校友lingjie liu在upenn做副教,主要是3d reconstruction/neural rendering领域,与当前学习路径恰好比较吻合,也能结合图形和ai两个领域的兴趣,也算有前景,接下来可以比较focus在这个子领域。 想做nerf的工作,联系xianzhi得知组内目前没有开展,打算先做复现,先学习前沿相关工作。目前实际上在组里是被放养的状态,希望能找到个转机 activity 有报联创ai组打算,ddl在18号周日,先略做准备,能加入组织互相学习当然好,但memo的经历实在膈应,只当一次体验和聊天罢 ,不必太过累心。

九月 15, 2022 · 1 分钟 · 17 字 · Me

时间的秩序

第一部分 时间的崩塌 统一性的消失 广相 引力改变时间流速(均匀性) 方向的消失 时间的方向性(过去未来有别)方向性源于克劳修斯对热传递的表述 玻尔兹曼对热的熵定义使时间的方向性只适用于对世界模糊的观察,物理规律在围观描述中关于过去与未来是对称的,也即时间都流逝并不具有实在性 当下的终结 独立性的消失 时间量子

九月 13, 2022 · 1 分钟 · 11 字 · Me

Git command line

git ls-files | xargs wc -l # 统计当前代码仓库的代码行数 git config --global user.name "Reed" git config --global user.email "165470801@qq.com"

九月 8, 2022 · 1 分钟 · 18 字 · Me

Rush to Nerf

Access for Lab-server ssh 02_thinksource@222.20.96.149 -p 10022 访问服务器 密码是:Ym2N7Q72E4 ssh -L 8888:localhost:8888 02_thinksource@222.20.96.149将jupyter notebook的端口映射到本地,然后复制notebook的链接至浏览器即可打开 关闭notebook时需在终端两次Ctrl+C 退出ssh连接,在终端执行exit Models MLP的隐藏层,若视为矩阵变换,可以当作对输入向量的升维操作,而在高维空间中,便可能找到一个超平面对输入进行划分(找到数据的划分是处理机器学习基本问题——分类或回归问题——的本质) RNN 对于含有时序信息的输入,模型需要有处理变长向量(Input)的能力,而MLP仅能处理固定长度的输入,因此设计了循环神经网络 Simple RNN $a^{<0>}$通常初始化为全零向量,设置$a^{<0>}$是为了在网络开始时满足模型的循环结构 many to many问题中,更多是处理输入$x$和输出$y$长度不同的情形,因此设计了encoder-decoder模型 Vanishing gradients梯度消失:在多层的网络模型中,最后计算的梯度通过反向传播很难对靠前的层进行更改 梯度消失在RNN的现象即:当序列中具有长间隔的数据具有依赖性时(e.g. cats…..were/cat….was),网络很难“记住” RNN训练时也会出现梯度爆炸(较罕见),表现为参数中出现NaN,可使用gradient clipping GRU GRU有效避免了梯度消失 LSTM 双向RNN 深度RNN Attention 注意力机制 query value key Transformer self-attention 位置编码 multi-attention batch norm和layer norm Transformer 是一个纯使用attention的encoder-decoder encoder和decoder都有n个transformer块 每个块里使用multi(self)attention, Positionwise FFN, layer norm BERT NLP问题上的预训练架构 Optimization 小批量随机梯度下降算法 梯度下降->随机梯度下降->小批量 冲量法 Adam:效果不一定优于SGD,优点是对LR不敏感,不必过多调参 Neural Rendering Definition Deep neural networks for image or video generation that enable explict or implict control of scene properties

八月 24, 2022 · 1 分钟 · 84 字 · Me

Makefile

什么是Makefile 关于程序的编译和链接 一般来说,无论是C还是C++,首先要把源文件编译成中间代码文件,在Windows下也就是 .obj 文件,UNIX下是 .o 文件,即Object File,这个动作叫做编译(compile)。然后再把大量的Object File合成执行文件,这个动作叫作链接(link)。 编译时,编译器需要的是语法的正确,函数与变量的声明的正确。对于后者,通常是你需要告诉编译器头文件的所在位置(头文件中应该只是声明,而定义应该放在C/C++文件中),只要所有的语法正确,编译器就可以编译出中间目标文件。一般来说,每个源文件都应该对应于一个中间目标文件( .o 文件或 .obj 文件)。 链接时,主要是链接函数和全局变量。所以,我们可以使用这些中间目标文件( .o 文件或 .obj 文件)来链接我们的应用程序。链接器并不管函数所在的源文件,只管函数的中间目标文件(Object File),在大多数时候,由于源文件太多,编译生成的中间目标文件太多,而在链接时需要明显地指出中间目标文件名,这对于编译很不方便。所以,我们要给中间目标文件打个包,在Windows下这种包叫“库文件”(Library File),也就是 .lib 文件,在UNIX下,是Archive File,也就是 .a 文件。 总结一下,源文件首先会生成中间目标文件,再由中间目标文件生成执行文件。在编译时,编译器只检测程序语法和函数、变量是否被声明。如果函数未被声明,编译器会给出一个警告,但可以生成Object File。而在链接程序时,链接器会在所有的Object File中找寻函数的实现,如果找不到,那到就会报链接错误码(Linker Error),在VC下,这种错误一般是: Link 2001错误 ,意思说是说,链接器未能找到函数的实现。你需要指定函数的Object File。 makefile的规则。 target ... : prerequisites ... command ... ... ​ target 可以是一个object file(目标文件),也可以是一个执行文件,还可以是一个标签(label)。对于标签这种特性,在后续的“伪目标”章节中会有叙述。 ​ prerequisites ​ 生成该target所依赖的文件和/或target ​ command ​ 该target要执行的命令(任意的shell命令)

八月 22, 2022 · 1 分钟 · 55 字 · Me

七堂极简物理课

Class 1 广相 空间与引力场等价,因此空间本身即是物质。 黎曼曲率 Class 2 量子 测不准原理 爱因斯坦光箱实验 “然而这些方程仍然十分神秘,因为他们并不描述在一个物理系统内发生了什么,而只说明一个物理系统是如何影响另外一个物理系统的。这意味着什么呢?是否意味着一个系统的真实存在是无法被描述的呢?是否意味着我们还缺少一块拼图?或者在我看来,是否意味着我们要接受’所谓真实只不过是相互作用造成的’?” Class 3 宇宙的构造 Nothing new Class 4 粒子 基本粒子标准模型(Standard Model/SM) Class 5 空间的颗粒 对量子力学和广相关于连续性的调和——圈量子引力,弦论 Class 6 概率、时间和黑洞的热 热量传递本质源于碰撞概率 “只有存在热量的时候,过去和未来才有区别。” 热传递某种程度上关联于时间的本质 那么,时间流逝这个鲜活的经验从何而来? 答案就在热量和时间的紧密联系中:只有热量发生转移时,才有过去与未来的区别。热量与概率相关,而概率又决定了:我们和周围世界的互动无法追究到微小的细节。 这样,“时间的流逝”便在物理学中出现了,但并非是精确地描述物体的真实状况,而更多的出现在统计学和热力学中。“此刻”并不比“此处”更加客观,但世界内部微观的相互作用促使某系统(比如我们自己)内部出现了时间性的现象,这个系统只通过无数变量相互作用。 Class 7 The end

八月 13, 2022 · 1 分钟 · 38 字 · Me

8-5-weekly_report

在假期里突然回首,发现时间真是难以把握,倏然流逝。 打算每周将学习进度、心态演变汇做周报记录下来,以期能日积月累,看得到进步,也使学友所获。 作为第一次周报,本上周五就打算动笔,却一拖再拖,同时也在学习上懈怠不前,今天又逢周五,便赶紧先写下来。 深度学习学到rnn已经有点吃力,再之后的attention和transformer就没仔细研究,但rnn、attention以及transformer应该是时下最常用的模型,还需要从头自习扣,再逐渐在动手学书籍、吴恩达课程和代码实现中重新把深度学习这些主干通完,之后或许就可以打打比赛,调调模型和读读论文了。 准备在大概在十一月首考托福,距今应该还有差不多三个月的时间。要想报武汉考位的话,应该现在就得报才能赶在十一月考了,但又不敢直接报名直接莽,遂打算先制定大概计划,每天学习,到九月或十月再考虑报名长沙的十一月考位。 假期其实有一些“暑假”作业,有一个程序设计和一些洛谷算法题,但现在还没有着手去做,考虑略微后置,也可以利用ddl的力量提高完成效率,不要像上个寒假一样,一个洛谷题单就刷了一假期,最后收获和进步却甚微。 有一些课程也要尽快着手去学习了,线性代数、CS61A和C++ CS106L,若假期内能简略完成,也算是在数学和编程正式入门了。 还有很多小任务,比如为了提高英语听力笔记效率应该练一下英语书法cursive handwriting,为了提高英语口语应该找外教定期练习……

八月 5, 2022 · 1 分钟 · 10 字 · Me

Speaking Type

Speaking Type Task Question Time Task 1: Independent Task Preference Agree/Disagree Preparation: 15s Answer: 45s Task 2: Campus Situation School Notice/Proposal letter Student Attitude & ReasonsSummerise the Speaker’s opinion within the context of the reading passage Reading: 45/50s Preparation: 30s Answer: 60s Task 3: Lecture Concept/Term A lecture further explains the concept with example Summerise example within the context of the reading passage Reading: 45/50sPreparation: 30sAnswer: 60s Task 4: Lecture Summerise according to a long lecture Preparation: 20sAnswer: 60s

八月 4, 2022 · 1 分钟 · 79 字 · Me