二分分类

数据处理

因为一张图片是由3通道组成，所以将图片分成三个矩阵

再将矩阵展开堆叠起来

逻辑回归(Logistic Regression)

逻辑回归是常在监督学习中使用的算法，输出结果都是1或者0.逻辑回归算法的目的是为了最小化预测结果和训练数据的误差。

$Given\quad x , \hat{y}= P(y = 1|x), where \quad 0 \le \hat{y} \le 1$

其中:

传入的特征向量 $x \in \mathbb{R}^{n_x}$ , $n_x$ 是x的特征数
y是训练数据的标签 $y \in 0,1$
w是权重 $w \in \mathbb{R}^{n_x}$ , $n_x$ 是x的特征数
b是一个阈值 $b \in \mathbb{R}$
输出为 $\hat{y} = \sigma(w^Tx+b)$
Sigmoid 函数为 $s = \sigma(w^Tx+b) = \sigma(z) = \frac{1}{1+e^{-z}}$

逻辑回归损失函数(Logistic Regression cost function)

为了得到 $w$ 和 $b$ ，我们需要定义一个损失函数。
损失函数的作用是为了衡量预测的结果和期望的结果不同的地方。
换句话说，损失函数是为了计算单个训练样本的误差

$\mathbf{L}(\hat{y}^{(i)},y^{(i)}) = \frac{1}{2}(\hat{y}^{(i)}-y^{(i)})^2$ $\mathbf{L}(\hat{y}^{(i)},y^{(i)}) = -(y^{(i)}log(\hat{y}^{(i)})+(1-y^{(i)})log(1-\hat{y}^{(i)}))$

当 $y^{(i)}=1$ : $\mathbf{L}(\hat{y}^{(i)},y^{(i)}) = -log(\hat{y}^{(i)})$ 所以 $\hat{y}^{(i)}$ 要接近于1
当 $y^{(i)}=0$ : $\mathbf{L}(\hat{y}^{(i)},y^{(i)}) = -log(1-\hat{y}^{(i)})$ 所以 $\hat{y}^{(i)}$ 要接近于0

代价函数(Cost function)

代价函数是整个训练集损失函数的平均数。

$\mathbf{J}(w,b) = \frac{1}{m}\sum_{i=1}^m \mathbf{L}(\hat{y}^{(i)},y^{(i)}) = -\frac{1}{m}\sum_{i=1}^m [(y^{(i)}log(\hat{y}^{(i)})+(1-y^{(i)})log(1-\hat{y}^{(i)}))]$

梯度下降(Gradient Descent)

由于 $\mathbf{J}(w,b)$ 是一个凹函数，所以可以使用梯度下降来找到 $w$ , $b$ ,使 $\mathbf{J}(w,b)$ 的值最小

我们先从一个单一的维度来看 $w$ 参数是如何进行参数更新的

在此例子中的 $w$ 的更新公式为 $w :=w - \alpha \frac{d\mathbf{J}(w)}{dw}$ ,其中 $\alpha$ 为学习率也就是每次更新的比率

当 $w$ 的值高于 $\mathbf{J}(w)$ 最小值处的 $w$ ,此时的 $dw$ 为正数,经过更新公式计算后, $w$ 的值减少
当 $w$ 的值底于 $\mathbf{J}(w)$ 最小值处的 $w$ ,此时的 $dw$ 为负数,经过更新公式计算后, $w$ 的值增加

这样也就达到了我们更新 $w$ 的目的
所以我们推广到二维上也是如此

$w :=w - \alpha \frac{d\mathbf{J}(w,b)}{dw}$ $b :=b - \alpha \frac{d\mathbf{J}(w,b)}{db}$

使用计算图来进行说明逻辑回归中的梯度下降

我们假设传入的特征值有两个,那么单个样本逻辑回归的正向计算的公式如下

$z = W^Tx+b$ $\hat{y} = a = \sigma(z)$ $\mathbf{L}(a,y) = -(ylog(a)+(1-y)log(1-a))$

我们使用链式法则计算相应的导数表达式

$da=\frac{d\mathbf{L}(a,y)}{da} = -(\frac{y}{a}-\frac{1-y}{1-a})$ $dz=\frac{d\mathbf{L}(a,y)}{da}·\frac{da}{dz}=\frac{d\mathbf{L}(a,y)}{da}·a'=-(\frac{y}{a}-\frac{1-y}{1-a})·a(1-a)=a-y$ $dw_1=\frac{d\mathbf{L}(a,y)}{dw_1}=x_1·dz \quad dw_2=\frac{d\mathbf{L}(a,y)}{dw_2}=x_2·dz \quad db=\frac{d\mathbf{L}(a,y)}{db}=dz$

而后使用得到的结果进行梯度更新

$w_1 :=w_1 - \alpha dw_1$ $w_2 :=w_2 - \alpha dw_2$ $b :=b - \alpha db$

这样就完成了单个样本的一次权重更新
如果我们在计算多个样本之后进行权重更新的话,我们知道:

$\mathbf{J}(w,b) = \frac{1}{m}\sum_{i=1}^m \mathbf{L}(\hat{y}^{(i)},y^{(i)})$

那么

$dw_1 = \frac{1}{m}\sum_{i=1}^m dw_1^{(i)}$ $dw_2 = \frac{1}{m}\sum_{i=1}^m dw_2^{(i)}$ $db = \frac{1}{m}\sum_{i=1}^m db^{(i)}$

然后再进行参数的更新即可

使用伪码小结一下

m为样本数量, $n_x$ 为特征数量
J = 0, $dw_1$ = 0, $dw_2$ = 0, db = 0
for i = 1 to m:
→| $𝑧^{(i)} = w^Tx^{(i)}+ 𝑏$
→| $a^{(i)} = sigma(z^{i})$
→|J += $-[y^{(i)}log\hat{y}^{(i)} + (1 - y^{(i)})log(1 - \hat{y}^{(i)}) ]$
→| $dz^{(i)} = a^{(i)}(1 - a^{(i)})$
→| $dw_1 += x_1^{(i)}dz^{(i)}$
→| $dw_2 += x_2^{(i)}dz^{(i)}$
→| $db += dz^{(i)}$
J = J/m; $dw_1$ = $dw_1$ /m; $dw_2$ = $dw_2$ /m; db = db/m
然后再进行更新参数

$w_1 :=w_1 - \alpha·dw_1$ $w_2 :=w_2 - \alpha·dw_2$ $b :=b - \alpha·db$

向量化

当在进行计算的时候，循环有的时候就会使计算效率非常底下，所以使用向量化来解决此问题,计算速度的差距还是很大的

一个for循环比较
两个for循环嵌套
用Numpy使矩阵的所有元素都进行相应的操作
将向量化运用到逻辑回归中

我们先去掉W参数的循环

将W初始化成shape为( $n_x$ ,1)的向量
for循环直接换成dw += $x^{(i)}dz^{(i)}$
最后再将dw直接除以m

再将外围遍历m个样本的循环消除

原先循环里使这样一个一个计算 $z^{(1)} = w^Tx^{(1)}+b \qquad z^{(2)} = w^Tx^{(2)}+b \qquad z^{(3)} = w^Tx^{(3)}+b$ $a^{(1)} = \sigma(z{(1)}) \qquad\qquad a^{(2)} = \sigma(z{(2)}) \qquad\qquad a^{(3)} = \sigma(z{(3)}) \qquad$ 现在我们将X也构建成一个矩阵 $X=\begin{bmatrix}\vdots&\vdots&\vdots\\\\x^{(1)}&x^{(2)}&x^{(3)}\\\\ \vdots&\vdots&\vdots\end{bmatrix} \in \mathbb{R}^{(n_x \ ,m)}$
W的矩阵是这样的 $W=\begin{bmatrix} w_1 \\\\ \vdots \\\\ w_{n_x\ } \end{bmatrix} \in \mathbb{R}^{(n_x \ ,1)}$ $W^T=\begin{bmatrix}w_1& \cdots & w_{n_x\ } \end{bmatrix} \in \mathbb{R}^{(1 ,n_x\ )}$
于是矩阵相乘变成此时b会由于Nympy的机制会自动广播查看文档,变成一个一维数组具体代码
1
2
Z=np.dot(W.T, X)+b
A= 1 / (1+np.exp(-Z))

向量化dw的计算

正向计算的式子是 $W^T · X + b = Z$
所以求导就是 $dW^T · X ·X^T = dZ · X^T => dW = (dZ · X^T)^T = X · dZ^T$

最终代码实现的逻辑回归

for item in range(1000):
  Z = np.dot(W.T, X)+b
  A = sigmoid(Z)
  dz = A - Y
  dW = (1/m) * np.dot(X, dz.T)
  db = (1/m) * np.sum( A - Y )

  W -=(learning_rate * dW)
  b -=(learning_rate * db)

logistic 损失函数的解释

当我们在计算 $\hat{y} = \sigma(W^T · X + b )$ 时
我们假设: $\hat{y} = P( y = 1 | x )$ ,所以
当 $y = 1$ 时 $P( y = 1 | x ) = \hat{y}$
当 $y = 0$ 时 $P( y = 0 | x ) = 1 - \hat{y}$
所以最终的公式变为 $P( y | x ) = \hat{y}^{y} · (1 - \hat{y})^{(1 - y)}$
因为 $log$ 函数是严格的单调递增，最大化 $logP(x|y)$ 就是最大化 $P(x|y)$
所以式子最终变成 $logP(x|y) = log ( \hat{y}^{y} · (1-\hat{y})^{(1-y)} ) = ylog(\hat{y})+(1-y)log(1-\hat{y})$
当我们在训练的时候希望概率是最大的，损失是最小的，所以选择它的负值作为损失函数