动手学机器学习
This notes mainly according to zh.d2l.ai textbook. Video based notes referred to [here](Rush to Nerf.md). 1.前言 1.2关键组件 1.2.1数据 与传统机器学习方法相比,深度学习的一个主要优势是可以处理不同长度的数据。 1.2.2模型 深度学习(deep learning)与经典方法区别在于,关注功能强大的模型,这些模型由神经网络错综复杂的交织在一起,包含层层数据转化。 1.2.3目标函数 目标函数 损失函数 平方误差 训练集(training set)测试集(test set) 过拟合(overfitting) 1.2.4优化算法 梯度下降(gradient descent) 2.预备知识 chapter_preliminaries 2.1数据操作 ndarray 索引和切片 遵循左闭右开原则,如:[0:9]等价于数学中的[0,9) 如果我们想[为多个元素赋值相同的值,我们只需要索引所有元素,然后为它们赋值。] 例如,[0:2, :]访问第1行和第2行的全部元素 2.3线性代数 范数: 在线性代数中,向量范数是将向量映射到标量的函数$f$。 给定任意向量$\mathbf{x}$,向量范数要满足一些属性。 第一个性质是:如果我们按常数因子$\alpha$缩放向量的所有元素, 其范数也会按相同常数因子的绝对值缩放: $$ f(\alpha \mathbf{x}) = |\alpha| f(\mathbf{x}) $$ 第二个性质是我们熟悉的三角不等式: $$ f(\mathbf{x} + \mathbf{y}) \leq f(\mathbf{x}) + f(\mathbf{y}). $$ 第三个性质简单地说范数必须是非负的: $$ f(\mathbf{x}) \geq 0. $$ 这是有道理的。因为在大多数情况下,任何东西的最小的大小是0。 最后一个性质要求范数最小为0,当且仅当向量全由0组成。 $$ \forall i, [\mathbf{x}]_i = 0 \Leftrightarrow f(\mathbf{x})=0....