在空间域上的低秩分解和在通道上的线性组合加速卷积运算

发表于 2023-01-12 更新于 2023-02-12 分类于论文阅读阅读次数：

论文：Speeding up Convolutional Neural Networks with Low Rank Expansions

作者：Max Jaderberg, Andrea Vedaldi and Andrew Zisserman;

一作单位：Visual Geometry Group Department of Engineering Science University of Oxford

录用情况：BMVC'2014

本文在空间维度上对卷积的空间域进行低秩分解，提出了两种分解的Scheme，直接的和间接的，相比于只在空间域上分解卷积核，作者还利用了通道维度上的冗余性，将多个卷积核视为基的线性组合；对于从传统卷积核到分解后的结构，提出了两种优化方法，基于卷积核的重建和基于数据的重建；该可以用到任何一般的卷积层中去。

方法

前置知识

记输入 \(x\in \mathbb{R}^{H\times W}\)，输出 \(Y = \{y_1, \dots, y_N\}\)，（其中\(y_n\in \mathbb{R}^{H'\times W'}\)），是由输入 \(x\) 与 \(N\) 个卷积核 \(F = \{f_i\}~\forall i \in [1\dots N]\) 卷积（\(y_i = f_i * x\)）得到的；

对于单通道的输入，\(N\) 个 \(d\times d\) 的2D卷积核，传统卷积的时间复杂度 \(O(d^2NH'W')\)；

一种基本的想法是将卷积核由一系列更少的基 \(S = \{s_i\} ~\forall i \in [1\dots M]\) 表示；有 \[ y_i \simeq \sum_{k=1}^{M} a_{ik}s_{k} * x \]

其中，\(a_{ik}\) 是权重标量；

在计算时，可以先算出输入与所有基的卷积结果，之后在计算 \(N\) 种加权线性组合，因此时间复杂度是 \(O((d^2M + MN)H'W')\)；

在满足 \(M<\frac{d^2N}{d^2 + N}\) 时，这种分解才有理论上的加速；

另一种基本的想法是将卷积核进行秩-1分解，有 \(s_i * x = v_i * (h_i * x)\)，其中，\(s_i \in \mathbb{R}^{d\times d}\)，\(v_i \in \mathbb{R}^{d\times 1}\)，\(h_i \in \mathbb{R}^{1\times d}\)；这种分解下，时间复杂度为 \(O(2dH'W')\)，理论上加速明显；

作者的主要想法就是，在扩展到3D卷积时，将上述两种方法结合起来；

3D卷积不过是2D卷积的组合

首先补充一些符号定义：

特征图 \(z_i(u, v)\)，其中 \((u, v)\in \Omega_i\) 是空间坐标，\(z_i(u, v)\in \mathbb{R}^C\) 是 \(C\) 个标量组成的通道特征，某个通道 \(c\) 的特征图记为 \(z_i^c(u, v)\)；

经过卷积层后，得到下一层特征图 \(z_{i+1} \in \mathbb{R}^{H'\times W\times N}\)，其中 \(z_{i+1}^n = h_i(W_{i,n} * z_i + b_{i,n}) ~\forall i \in [1\dots N]\)；\(h_i\) 是非线性激活函数；

我们可以把3D卷积视为2D卷积的组合： \[ W_n * z = \sum_{c=1}^C W_n^c * z^c \]

3D卷积的复杂度为 \(O(CNd^2H'W')\)；依此，结合上一节的两种方法，作者首先提出scheme 1的分解方法：

Scheme 1

按照下式对卷积核直接进行分解： \[ W_n * z = \sum_{c=1}^C W_n^c * z^c \simeq \sum_{c=1}^C\sum_{m=1}^M a_n^{cm}(s_m^c * z^c) \]

时间复杂度为 \(O(MC(d^2+N)H'W')\)；

如果基 \(s_m^c\) 是秩-1矩阵且表示为可分离的，那么时间复杂度可以进一步减小为 \(O(MC(d+N)H'W')\)，那么，只要 \(M < d\min\{d, N\}\)，scheme 1相比于传统卷积，在理论上更高效；

这个条件似乎很苛刻，因为通常有 \(d \ll N\)，即 \(M \le d^2\)，这么小的 \(M\) 能得到好的拟合吗？

在上式中，对于每一个通道 \(c\) 上的卷积，使用不同的基 \(S^c\)，但是作者在实验中发现，所有通道共享相同的基，即 \(s_m^1 = \dots = s_m^C = s_m\)；但是，权重不可能再在通道维度上共享了，否则对原卷积的拟合结果在通道上一致，是非常差的拟合；学习到的权重是 \(NC\times M\) 的张量，笔者怎么也不知道作者是怎么把这个权重放在 \(N\) 个 \(M \times 1 \times 1\) 卷积中的；按照分解式，结合现有的api，笔者得到的scheme 1流程是：

将 \(C\) 通道输入分 \(C\) 组，每组用 \(CM\) 个单通道\(d\times d\) 卷积，这一步是计算输入的各个通道与\(M\)个基的各个通道的卷积；
使用 \(N\) 个 \(CM\) 通道 \(1\times 1\) 卷积，这一步是加权求和；

在学习到合适的基后，对 \(CM\times 1\times d\times d\) 的卷积核张量进行空间分解，得到如下的推理时流程：

将 \(C\) 通道输入分 \(C\) 组，每组用 \(CM\) 个单通道 \(1\times d\) 卷积；
将上一步结果分 \(CM\) 组，每组用 \(CM\) 个单通道 \(d\times 1\) 卷积；
使用 \(N\) 个 \(CM\) 通道 \(1\times 1\) 卷积，这一步是加权求和；

Scheme 2

这里作者希望用两次卷积解决问题：首先使用 \(K\) 组 \(d\times 1\) 卷积 \(\{v_k \in \mathbb{R}^{d\times 1\times C}: ~k\in [1\dots, K]\}\)，得到 \(V(u,v)\in \mathbb{R}^K\)，再次使用 \(N\) 组 \(1\times d\times K\) 卷积 \(\{h_n\in \mathbb{R}^{1\times d\times K}\}\)；（图1(c)的标注有误）

由下式 \[ W_n * z \simeq h_n * V = \sum_{k=1}^K h_n^k * V^k = \sum_{k=1}^K h_n^k * (v_k * z) = \sum_{k=1}^K h_n^k * \sum_{c=1}^C v_k^c * z^c = \sum_{c=1}^C \left[\sum_{k=1}^K h_n^k * v_k^c \right] * z^c \] 可得分解： \(W_n^c = \sum_{k=1}^K h_n^k * v_k^c\)；

Scheme 2的时间复杂度为 \(O(K(N+C)dH'W')\)，要想获得理论加速，应该有 \(K(N + C) \ll NCd\)；

基于卷积核重建的优化

scheme 1

对于scheme 1，使用先前的论文提出的目标函数即可：

\[ \min_{\{s_m\}, \{a_n\}} \sum_{n=1}^N\sum_{c=1}^C \left \Vert W_n^c - \sum_{m=1}^M a_n^{cm} s_m \right\Vert_2^2 + \lambda \sum_{m=1}^M \Vert s_m\Vert_* \]

交替优化 \(\{s_m\}, \{a_n\}\)；

值得注意的是，我们优化的是低秩的基 \(\{s_m\}\)，得到最优解后我们还要对 \(\{s_m\}\) 进行低秩分解（如SVD），得到最终的形式；

一个在实践中非常重要的问题就是 \(\lambda\) 的确定，作者建议使用小的 \(\lambda\) 开始，逐步增加；

scheme 2

对于scheme 2，使用如下目标函数，并使用共轭梯度下降优化：

\[ \min_{\{h_n^k\},\{v_k^c\}} \sum_{n=1}^{N}\sum_{c=1}^C \left \Vert W_n^c - \sum_{k=1}^K h_n^k * v_k^c \right\Vert_2^2 \]

基于数据重建的优化

以scheme 2为例，目标函数为： \[ \min_{\{h_n^k\},\{v_k^c\}} \sum_{i=1}^{|X|}\sum_{n=1}^{N}\left \Vert W_n\Phi_{l-1}(x_i) - \sum_{c=1}^C \sum_{k=1}^K h_n^k * v_k^c * \Phi_{l-1}(x_i) \right \Vert_2^2 \] 其中，\(\Phi_{l-1}(x_i)\) 表示原网络在对于 \(x_i\) 在 \(l-1\) 层的输出；

这种优化的实现相对简单，只需要同时运行费解版本和原始版本的卷积网络，并反向传播每层L2损失的梯度；

作者也在文中指出，使用分类损失回传的梯度来进行数据重建优化，在实验中，不如使用L2损失，容易过拟合；（作者的意思应该是只更新分解的卷积层参数，其它层冻结）

实验

作者在实验部分指出，在测试集上，基于数据重建的优化要好于（重建损失更低，精度损失更低）基于卷积核的优化，甚至，"This generally holds when data from a completely different distribution to what the data optimization scheme has been trained on"；

而同等重建损失下scheme 1有比scheme 2的更好的理论加速比，但是由于彼时Caffe框架对于2D卷积没有很好的优化，因此作者的实现下scheme 1的实际耗时非常高；

最终，基于一个4层的CNN，做26个字母加10个数字的图像分类，作者在2,3层卷积上使用scheme 2 + 基于数据的重建，获得了1%的分类精度损失下的4.5倍的加速比；

后来的研究

在论文 Convolutional Neural Networks with Low-Rank Regularziation (ICLR'2016) 中，对本文的scheme2的工作进行了扩展：

scheme2基于卷积核重建的优化，本文给出了解析解，避免依次优化迭代次数多陷入局部最优的问题；
证明了scheme2基于数据重建的优化是NP难问题；
仍然使用分类误差对整个模型进行微调，比逐层使用L2 loss微调更好；
从头训练带有低秩结构的模型，获得了不错的效果；

下面笔者简单梳理一下解析解的由来：

本文基本沿用了相同的符号，目标函数是

Frobenius 范数矩阵向量化后的二范数，有如下性质：

\[ \lVert W_1 + W_2 \rVert _F^2 = \lVert W_1 \rVert _F^2 + \lVert W_2 \rVert _F^2 \]

令

相当于N行C列，每个元素是一个 d\(\times\)d 的块的矩阵；显然有 \(\operatorname{rank}\tilde{W} \le K\)；

结合上述两点，我们可以将优化问题等价为：

\[ \begin{array}{ll} \text{min} &\lVert W - \tilde{W}\rVert _F^2\\ \text{s.t.} &\operatorname{rank}\tilde{W} \le K \end{array} \]

该问题可以用 \(W\) 的奇异值分解结果得到，因此有：