【Arxiv 大模型最新进展】LLaVA-Mini：压缩至一个视觉token，高效计算与实时响应的多模态大模型

LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Shaolei Zhang, Qingkai Fang等

中国科学院智能信息处理重点实验室，中国科学院计算技术研究所等

本文提出了LLaVA-Mini，通过对多模态大模型注意力矩阵的逐层分析，发现视觉token主要在模型的前几层被利用，基于这一发现，文章引入了模态预融合技术，将视觉信息提前融入文本token，将输入LLM主干的视觉token压缩至一个token。

研究内容

多模态大模型的视觉token压缩

研究动机

现有方法表现不佳：现有方法依赖于预定义规则来减少视觉编码器输出的token数量，或专注于LLM主干小型化，或者其他方法，仍会导致视觉信息的大量丢失。

技术动机

多模态大模型是如何理解视觉token的？

通过提出这一疑问，本文对模型进行逐层分析，发现视觉token主要在模型的前几层被利用，随着层级的加深，关注视觉token的注意力急剧减少。

解决方案

基于上面的发现——视觉token在模型的浅层中对融合视觉信息至关重要，LLaVA-Mini在LLM主干网络之前引入了一个模态预融合模块，将视觉信息提前融合到文本token中。下面分别介绍LLaVA-Mini的两个重要模块，视觉token压缩模块和模态预融合模块

视觉token压缩模块

LLaVA-Mini 引入了 $\times C$ 可学习的压缩查询 $Q_v$ 。这些查询通过交叉注意力与所有视觉token $H_v$ 进行交互，选择性地提取重要的视觉信息，生成 $\times C$ 压缩的视觉token $\hat{H}_v \in \mathbb{R}^{C_2 \times d_h}$ 。为了在压缩过程中保留图像的空间信息，我们对可学习查询和原始视觉token引入了2D正弦位置编码。

模态预融合模块

模态预融合模块 $f(\cdot)$ 由 $N_{\text{fusion}}$ 个Transformer块组成，每个Transformer块与LLM骨干网络共享相同的结构和超参数。视觉token $H_v$ 和文本token $H_q$ 被连接并输入到预融合模块中，然后提取与文本相关的视觉信息作为融合token，表示为：