大模型压缩：基于贝叶斯优化的自适应低秩分解

1.方法

1.1 基于特征的高维空间低秩分解

PCA已经是老朋友了，每次一说主成分都会出现PCA。这篇文章¹利用预训练数据的子集作为校准数据集 $\mathcal{D}_{cal}=\{x_{i}\}_{i=1}^{n}$ ，首先用校准数据集的样本协方差矩阵（SCM）估计整个特征空间分布的Y的协方差矩阵
$Cov_S(\boldsymbol{Y})=\frac{1}{n-1}\sum_{i=1}^n(\boldsymbol{y}_i-\bar{\boldsymbol{y}})^T(\boldsymbol{y}_i-\bar{\boldsymbol{y}})\tag{1}$
式中 $\boldsymbol{y}_i$ 表示 $\boldsymbol{x}_i$ 的特征， $\bar{\boldsymbol{y}}$ 是校准数据集的特征值平均值。但文章指出，计算高维的协方差矩阵并不简单，他们提出了合并协方差矩阵（PCM），把校准数据集分成 $m$ 组，对每一组分别计算协方差矩阵最后求平均得PCM
$Cov_P(\boldsymbol{Y})=\frac{1}{m}\sum_{k=1}^mCov_S(\boldsymbol{Y}_k)\tag{2}$

1.2 基于贝叶斯优化得低秩分配

对于每一层，甚至每一层的不同矩阵对低秩分解得敏感度不同，对于一个模型 $f(\cdot;\theta)$ ，引入一组压缩率 $\lambda=\{\lambda_{i}\}_{i=1}^{k}$ ，引入一个任务模糊数据集D来评价压缩大模型 $f(\cdot;\boldsymbol{\theta},\lambda)$ 的性能，例如预训练数据集的子集。因此目标函数表示为
$\begin{aligned}\min_{\lambda\in\mathcal{V}}H(\boldsymbol{\lambda})&=\mathbb{E}_{(x,y)\sim\mathcal{D}}h(f(x;\boldsymbol{\theta},\boldsymbol{\lambda}),y)\\&s.t.\Sigma\boldsymbol{\lambda}\leq\rho\end{aligned}\tag{3}$
式中， $\rho$ 是模型的整体压缩比， $h(\cdot,\cdot)$ 是评价指标，但事实上，评价指标和低秩分配都是非常耗时耗算力的，所以这篇论文提出样本高效贝叶斯优化（BO）来优化公式3。这里引入一个替代模型（例如高斯模型 $\mathcal{N}(\mu(\cdot),\sigma^2(\cdot))$ ），BO通过替代模型来估计目标函数 $H(\boldsymbol{\lambda})$ ，并且基于每一步的结果，更新后面一步的目标函数 $H(\boldsymbol{\lambda})$ 。比如给出前t-1步 $\{\boldsymbol{\lambda}_{1},\cdots,\boldsymbol{\lambda}_{t-1}\}$ 的目标函数值分别为 $H_{t-1}=[H(\boldsymbol{\lambda}_{1}),\cdots,H(\boldsymbol{\lambda}_{t-1})]$ ，替代模型更新为 $\mu(\boldsymbol{\lambda})=\boldsymbol{k}(\boldsymbol{K}+\eta^{2}\boldsymbol{I})^{-1}H_{t-1}\\\sigma^{2}(\boldsymbol{\lambda})=k(\boldsymbol{\lambda},\boldsymbol{\lambda})-\boldsymbol{k}^{T}(\boldsymbol{K}+\eta^{2}\boldsymbol{I})^{-1}\boldsymbol{k}\tag{4}$
式中 $k(\cdot,\cdot)$ 是一个核函数， $(\boldsymbol{k}=k(\boldsymbol{\lambda},\boldsymbol{\lambda}_{i}))_{i\in[t-1]}$ ， $(k(\boldsymbol{\lambda}_{i},\boldsymbol{\lambda}_{j}))_{i,j\in[t-1]}$ ， $\eta^{2}I$ 是用来模拟噪声的白核函数，得到后验估计 $H(\boldsymbol{\lambda})$ （例如 $H(\boldsymbol{\lambda})\sim{\mathcal{N}}(\mu(\boldsymbol{\lambda}),\sigma^{2}(\boldsymbol{\lambda}))$ ）之后，BO通过采集函数确定下一次的比率分布，对于采集函数，可以用EI
$\begin{aligned}\alpha(\boldsymbol{\lambda})&=\mathbb{E}_{H(\boldsymbol{\lambda})}\left[\max\left\{0,H'-H(\boldsymbol{\lambda})\right\}\right]\\\boldsymbol{\lambda}_{t}&=\mathop{\mathrm{argmax}}_{\boldsymbol{\lambda}}\alpha(\boldsymbol{\lambda}),\end{aligned}\tag{5}$
式中， $H^{\prime}=\operatorname*{min}_{i\in[t-1]}H(\boldsymbol{\lambda}_{i})$ 是指迄今为止观察到的最小值，然后BO选择了最好的EI的方向去搜索。在得到最优比 $\lambda^{*}$ 之后，可以确定分配 $r_{i}=(1-\lambda_{i})d_{1}d_{2}/(d_{1}+d_{2})$ 。

1.3 后训练

为了不使模型参数量反弹，文章使用压缩模型的子空间对模型微调。
$Y=(BA+\Lambda_bB_{r'}\Lambda_dA_{r'})X\tag{6}$
式中， $B_{r^{\prime}}\in\mathbb{R}^{d_2\times r^{\prime}}$ ， $A_{r^{\prime}}\in\mathbb{R}^{r^{\prime}\times d_1}$ 是修正后的 $B$ 和 $A$ 矩阵， $\boldsymbol{\Lambda}_{b}$ 和 $\boldsymbol{\Lambda}_{d}$ 是对角阵。