logistic回归参数求解推导过程
记录一下逻辑回归的参数求解推导过程:
损失函数
线性回归的表达式为:$f(x) = wx+b$,为了消除后面的$b$,令$\theta = [w \quad b], x = [x \quad 1]^T$,则$f(x) = \theta x$
将其转换为逻辑回归模型:$y=\sigma(f({x}))=\sigma\left({\theta} {x}\right)=\frac{1}{1+e^{-{\theta} {x}}}$
我们把单个样本看作一个事件,那么这个事件发生的概率为:
它等价于:$P\left(y_{i} \mid {x}_{i}\right)=p^{y_{i}}(1-p)^{1-y_{i}}$
如果我们采集到了一组数据一共N个,$\left\{\left({x}_{1}, y_{1}\right),\left({x}_{2}, y_{2}\right),\left({x}_{3}, y_{3}\right) \ldots\left({x}_{N}, y_{N}\right)\right\},$ 这个合成在一起的合事件发生的总概率如下:
为了符合损失函数的含义,将其定义为:
推导
先求$\frac{\partial p}{\partial \theta}$ :
求$\frac{\partial L}{\partial \theta}$ :
因此 $\frac{\partial L}{\partial \theta} = \sum_{i=1}^N (p-y_i)x_i$
梯度更新
通过反向传播,$\theta$ 的更新过程如下: