mini-batch 在网络里的并行计算

使用小批量可以

①提高模型的训练速度，不用过于频繁地计算参数。通过经验风险最小化由一组样本并行计算并共同决定这批数据的梯度方向

②引入随机性以避免陷入局部极值

具体到设计网络，以RNN为例（RNN与CNN相比的输入是反常的）

输入节点为$x$,隐藏层节点为$h$，输出节点为$o$。设vec_size = v, hidden_size = h, batch_size = 2,则设定参数矩阵(省略偏移)

$W_{xh}=W_{v*h} , W_{hh}=W_{h*h}, W_{ho}=W_{h*o} ， seq_a = [a_0,a_1,a_2],seq_b = [b_0,b_1,b_2]$

于是一个mini-batch为 $[[a_0,b_0],[a_1,b_1],[a_2,b_2]]_{3*2*v}$

对其进行迭代，则$t_0$时刻输入矩阵 $X^{t_0}=[a_0,b_0]=[a^{t_0}_{1*v},b^{t_0}_{1*v}]$

注意这里在python中的表示用数学表示形式是一个二维矩阵，

$Input= X^{t_0} = X_{2*v} = \begin{bmatrix} {a_{1*v}}\\{b_{1*v}} \end{bmatrix}$

于是一次循环：

$Hidden= \sigma (X^{t_0}×W_{xh} + H^{(t_0-1)}×W_{hh})=\sigma(X_{2*v}×W_{v*h}+ H^{(t_0-1)}_{2*h}×W_{h*h})$ $= \sigma( \begin{bmatrix} a^{t_0}_{1*v}×W_{v*h}\\ b^{t_0}_{1*v}×W_{v*h} \end{bmatrix} + \begin{bmatrix}H^{(t_0-1)}_{1*h}×W_{h*h}\\ H^{(t_0-1)}_{1*h}×W_{h*h} \end{bmatrix} )$ $= \begin{bmatrix} {h^{a_0}_{1*h}}\\{h^{b_0}_{1*h}} \end{bmatrix} =H^{(t_0)}_{2*h}$ $Output= H^{(t_0)}_{2*h}×W_{h*o} = \begin{bmatrix} {h^{a_0}_{1*h}×W_{h*o}}\\ {h^{b_0}_{1*h}×W_{h*o}} \end{bmatrix}$ $= \begin{bmatrix} {o^{a_0}_{1*o}}\\{o^{b_0}_{1*o}} \end{bmatrix} =O^{t_0}_{2*o}$

由此可看出，在矩阵相乘的规则下，相当于将不同的$seq$样本同时加载进网络中同时并行计算。

通过一段时间将mini-batch全部加载进循环神经网络，通过loss function再平均作为mini-batch的loss，再作BPTT，就可以求出此mini-batch的梯度。

对于CNN，也是一样的原理同时处理一个mini-batch的所有图片，只不过其输入方式与处理方式有所不同。

mini-batch 在网络里的并行计算

Pray for Kyoto Animation

RNN做批