深度学习实战（二）：知识回顾

数学基础

2.1 二元分类

我们首先回顾一下机器学习中的二元分类，我们假设输入是一个 $~64\times64~$ 的图片，我们需要判断图片中的是不是猫，这就是一个典型的二分类问题，在计算机中图片的显示通过RGB通道，也就是说这个图片在计算机存储为3个 $~64\times64~$ 的矩阵，我们不妨将这三个矩阵用一个向量表示，那么我们的输入 $~x~$ 将会是一个大小为 $~64\times64\times3=12288~$ 的一维向量。

在此我们统一本次学习中用到的符号表示规范：
① 我们用 $~(x,y)~$ 表示一个输入的样本，用 $~n_x~$ 表示输入的特征向量的大小， $~x\in R^{n_x}~$ ，二分类中 $~y\in\{0,1\}~$
② 我们用 $~m~$ 表示训练集的大小，用 $~(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)})~$ 表示第 $~1-m~$ 个样本
③ 有时会用 $~M=M_{train}~$ 表示训练集样本大小， $~m=m_{test}~$ 表示测试集样本大小
④ 默认 $~x~$ 为列向量，则用 $~n_x\times m~$ 矩阵 $~X~$ 表示整个输入的特征向量， $~X=[x^{(1)},x^{(2)},...,x^{(m)}]~$ ，神经网络中通常会这样表示
⑤ 同理标签集表示为 $~Y=[y^{(1)},y^{(2)},...,y^{(m)}]~$ ，这是一个 $~1\times m~$ 矩阵

2.2 逻辑回归

我们再来回顾一下逻辑回归，对于一个输入的 $~x~$ ，逻辑回归模型为：

h(x)=\hat y=\sigma(w^Tx+b)=\frac{1}{e^{-(w^Tx+b)}+1}=P(y=1|x)

逻辑回归模型的两个参数为 $~w,b~$ ，我们可以通过梯度下降的方式训练出这两个参数，首先定义逻辑回归模型的成本函数：

J(w,b)=-\frac1m\sum_{i=1}^m\big(y^{(i)}\log \hat{y}^{(i)}+(1-y^{(i)})\log (1-\hat{y}^{(i)})\big)

成本函数是极大似然估计推出的，推导过程可以参考之前的博客逻辑回归 (2006wzt.github.io)，进行梯度下降： $~:=~$ 表示迭代

w:=w-\alpha\frac{\partial J(w,b)}{\partial w}\\ b:=b-\alpha\frac{\partial J(w,b)}{\partial b}

吴恩达老师在这部分内容中讲解了很多与导数相关的知识，大家可以自行学习，因为较为基础，博客中将不再阐述。
成本函数的求导过程如下，这与吴恩达老师的计算图思想是一样的：记 $~z^{(i)}=w^Tx^{(i)}+b~$

\begin{aligned} &J(w,b)=-\frac1m\sum_{i=1}^m\big(y^{(i)}\log \sigma(z^{(i)})+(1-y^{(i)})\log (1-\sigma(z^{(i)}))\big)\\ &\frac{\partial J(w,b)}{\partial w}=\frac{\partial J(w,b)}{\partial \sigma(z)}\cdot\frac{\partial \sigma(z)}{\partial z}\cdot\frac{\partial z}{\partial w}=\sum_{i=1}^m\frac{\sigma(z^{(i)})-y^{(i)}}{\sigma(z^{(i)})(1-\sigma(z^{(i)}))}\cdot \sigma(z^{(i)})(1-\sigma(z^{(i)}))\cdot x^{(i)}=\sum_{i=1}^m(\sigma(z^{(i)})-y^{(i)})x^{(i)}\\ &\frac{\partial J(w,b)}{\partial b}=\frac{\partial J(w,b)}{\partial \sigma(z)}\cdot\frac{\partial \sigma(z)}{\partial z}\cdot\frac{\partial z}{\partial b}=\sum_{i=1}^m\frac{\sigma(z^{(i)})-y^{(i)}}{\sigma(z^{(i)})(1-\sigma(z^{(i)}))}\cdot \sigma(z^{(i)})(1-\sigma(z^{(i)}))\cdot 1=\sum_{i=1}^m(\sigma(z^{(i)})-y^{(i)}) \end{aligned}

此处我们引入一个概念：向量化，这是一个用于提高代码计算效率的方法，简单来说，计算 $z=w^Tx+b$ 有两种方法：

import numpy as np
#非向量化方法
z=0
for i in range(n_x):
    z+=w[i]*x[i]
z+=b
#向量化方法
z=np.dot(w,x)+b

一些小技巧是不要吝啬去使用reshape去确保向量的维数与期望的是相同的。

这一节貌似没什么有新东西，大家可以仅当成一个机器学习知识的回顾，因为吴恩达老师在这部分讲的都是一些很基础的东西，可以自行去观看视频学习，那么下一节将会正式得进入深度学习部分。

文章作者：w_CS
原文链接：https://2006wzt.github.io/post/深度学习实战（二）：知识回顾/
版权声明：本博客所有文章除特别声明外，均采用BY-NC-SA 许可协议。转载请注明出处！

CSP-精炼

上一篇 CSP-精炼

深度学习实战（一）：深度学习导论

下一篇深度学习实战（一）：深度学习导论

数学基础
- 2.1 二元分类
- 2.2 逻辑回归