逻辑斯谛回归模型

  2019-11-6 


Binomial Logistic Regression Model

LR是最基本的模型之一。

二项逻辑斯谛回归模型

$x∈\mathbb R^n$为输入,$Y∈\{0,1\}$为输出,$w∈\mathbb R^n$和$b∈R$是参数,$w$为权值,$b$为偏置,$wx$是$w·x$的简写,为内积

$P(Y=0|x)=1-P(Y=1|x)$

简写:有时候可以把$b$包含进$w$里,$wx+b$写成$wx$,此时:

$w=(w^{(1)},w^{(2)},\cdots,w^{(n)},b)^T$,$x=(x^{(1)},x^{(2)},\cdots,x^{(n)},1)$

对数几率:$\log(p=1)=\log\frac{p}{1-p}=\log\frac{P(Y=1|x)}{1-P(Y=1|x)}=wx$(内积 $w·x$)

也就是说:输出$Y=1$的对数几率是输入$x$的线性函数,或者说输出$Y=1$的对数几率是由输入$x$的线性函数表示的模型,也就是逻辑斯谛回归模型。所以说LR模型是一个线性对数模型(MEM也是个对数线性模型)

理解:$wx$为一个对$x$进行分类的线性函数(线性分类器),使用LR的定义将其转化为了一个概率:

$P(Y=1|x)=\frac{e^{wx}}{1+e^{wx}}$。线性函数的值越接近于正无穷,概率值越接近于1;其值越小,概率值越趋近于0。

更本质地理解:其实逻辑斯谛模型就是$P(Y=1|x)=g(wx)$,相当于将线性分类器$wx,x∈\mathbb R^n$映射到了概率区间$(0,1)$上,即$g(wx)∈(0,1)$。见S形曲线。

LR分布与LRM曲线,略

逻辑斯谛分布的分布函数属于逻辑斯谛函数,逻辑斯谛回归模型$P(Y=1|x)$函数也属于逻辑斯谛函数。

逻辑斯谛函数都呈S形曲线

对于决策:分类器输出的是概率,那么给定阈值如$th=0.5$,则$x_i$的输出标签为:

$f(x_i)=\begin{cases} 1,f(wx)≥0.5\\ 0,f(wx)<0.5 \end{cases}$

学习算法:参数估计

对给定训练集:$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\},x_i∈\mathbb R^n,y_i∈\{0,1\}$

设$P(Y=1|x)=\pi(x)$,则$P(Y=0|x)=1-\pi(x)$

$y_i$表示第$i$项的输出

注意这里如何构造MLE式子表示:

LR的构造MLE表示的想法和MEM一样,都是想构造指数函数来表示多分类的多项之积,但具体的构造方式「完全不同」

【其中,$\pi(x_i)$即为预测标签(模型输出),$y_i$即为对应的真实标签】

【这个式子将多分类的多项之积的MLE写成一个式子,当$y_i=1$时,只有$[\pi(x_i)]^{y_i}$会生效,$[1-\pi(x_i)]^{1-y_i}$由于指数部分为0使得该子项等于1;反之$y_i=0$时,只有后半部分会生效。】

【于是当比如真实标签$y_i=1$时,左边部分生效,那么$\pi(x_i)$的输出越小,即输出概率越偏离真实值,MLE整体就越小,而我们就是要在整体样本之上极大化MLE,也就是尽量让输出概率整体接近真实值,得到整体最优解,此即MLE的意义】

于是其对数似然函数为$L(w)=\log MLE_{P(y|x)}$,即:

化简之:$=\sum_{i=1}^N[y_i\log \pi(x_i)+\log(1-\pi(x_i))-y_i\log(1-\pi(x_i))]$

$=\sum_{i=1}^N[y_i\log\frac{\pi(x_i)}{1-\pi(x_i)}+\log(1-\pi(x_i))]$

所以可得

以此对数似然函数为极大化目标求出$w$即为模型参数

MLR的相反数其等价于ERM方法的损失函数($m$为mini-batch size):

但往往直接求0导得极值无法做到,因为参数众多无法求解,于是常用牛顿拟牛顿法,梯度下降法解决

以梯度下降法为例,对损失函数用参数$w$求偏导:$\nabla_wL(w)$,然后在各个$w_i$的方向上梯度下降,这里写总式:$w\to w+\epsilon\nabla_wL(w)$

多项逻辑斯谛回归

$Y$的取值集合为$\{1,2,\cdots,K\}$

$x∈\mathbb R^{n+1},w_k∈\mathbb R^{n+1}$

这里的MLE构造就可以用和MEM一样的构造方法来构造了


且听风吟