Binomial Logistic Regression Model
LR是最基本的模型之一。
二项逻辑斯谛回归模型
$x∈\mathbb R^n$为输入,$Y∈\{0,1\}$为输出,$w∈\mathbb R^n$和$b∈R$是参数,$w$为权值,$b$为偏置,$wx$是$w·x$的简写,为内积
$P(Y=0|x)=1-P(Y=1|x)$
简写:有时候可以把$b$包含进$w$里,$wx+b$写成$wx$,此时:
$w=(w^{(1)},w^{(2)},\cdots,w^{(n)},b)^T$,$x=(x^{(1)},x^{(2)},\cdots,x^{(n)},1)$
对数几率:$\log(p=1)=\log\frac{p}{1-p}=\log\frac{P(Y=1|x)}{1-P(Y=1|x)}=wx$(内积 $w·x$)
也就是说:输出$Y=1$的对数几率是输入$x$的线性函数,或者说输出$Y=1$的对数几率是由输入$x$的线性函数表示的模型,也就是逻辑斯谛回归模型。所以说LR模型是一个线性对数模型(MEM也是个对数线性模型)
理解:$wx$为一个对$x$进行分类的线性函数(线性分类器),使用LR的定义将其转化为了一个概率:
$P(Y=1|x)=\frac{e^{wx}}{1+e^{wx}}$。线性函数的值越接近于正无穷,概率值越接近于1;其值越小,概率值越趋近于0。
更本质地理解:其实逻辑斯谛模型就是$P(Y=1|x)=g(wx)$,相当于将线性分类器$wx,x∈\mathbb R^n$映射到了概率区间$(0,1)$上,即$g(wx)∈(0,1)$。见S形曲线。
LR分布与LRM曲线,略
逻辑斯谛分布的分布函数属于逻辑斯谛函数,逻辑斯谛回归模型$P(Y=1|x)$函数也属于逻辑斯谛函数。
逻辑斯谛函数都呈S形曲线
对于决策:分类器输出的是概率,那么给定阈值如$th=0.5$,则$x_i$的输出标签为:
$f(x_i)=\begin{cases} 1,f(wx)≥0.5\\ 0,f(wx)<0.5 \end{cases}$
学习算法:参数估计
对给定训练集:$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\},x_i∈\mathbb R^n,y_i∈\{0,1\}$
设$P(Y=1|x)=\pi(x)$,则$P(Y=0|x)=1-\pi(x)$
$y_i$表示第$i$项的输出
注意这里如何构造MLE式子表示:
LR的构造MLE表示的想法和MEM一样,都是想构造指数函数来表示多分类的多项之积,但具体的构造方式「完全不同」
【其中,$\pi(x_i)$即为预测标签(模型输出),$y_i$即为对应的真实标签】
【这个式子将多分类的多项之积的MLE写成一个式子,当$y_i=1$时,只有$[\pi(x_i)]^{y_i}$会生效,$[1-\pi(x_i)]^{1-y_i}$由于指数部分为0使得该子项等于1;反之$y_i=0$时,只有后半部分会生效。】
【于是当比如真实标签$y_i=1$时,左边部分生效,那么$\pi(x_i)$的输出越小,即输出概率越偏离真实值,MLE整体就越小,而我们就是要在整体样本之上极大化MLE,也就是尽量让输出概率整体接近真实值,得到整体最优解,此即MLE的意义】
于是其对数似然函数为$L(w)=\log MLE_{P(y|x)}$,即:
化简之:$=\sum_{i=1}^N[y_i\log \pi(x_i)+\log(1-\pi(x_i))-y_i\log(1-\pi(x_i))]$
$=\sum_{i=1}^N[y_i\log\frac{\pi(x_i)}{1-\pi(x_i)}+\log(1-\pi(x_i))]$
所以可得
以此对数似然函数为极大化目标求出$w$即为模型参数
MLR的相反数其等价于ERM方法的损失函数($m$为mini-batch size):
但往往直接求0导得极值无法做到,因为参数众多无法求解,于是常用牛顿拟牛顿法,梯度下降法解决
以梯度下降法为例,对损失函数用参数$w$求偏导:$\nabla_wL(w)$,然后在各个$w_i$的方向上梯度下降,这里写总式:$w\to w+\epsilon\nabla_wL(w)$
多项逻辑斯谛回归
$Y$的取值集合为$\{1,2,\cdots,K\}$
$x∈\mathbb R^{n+1},w_k∈\mathbb R^{n+1}$
这里的MLE构造就可以用和MEM一样的构造方法来构造了