VLA-Adapter论文解读（三）：Bridge Attention的机制与原理解析

📅 2026/7/1 8:09:50 👁️ 次浏览

论文链接https://arxiv.org/abs/2509.09372项目主页VLA-Adapter桥接注意力机制Bridge Attention作为VLA-Adapter的核心贡献也是理解“为什么0.5B参数模型能够跑出SOTA级别性能”的关键原因。本文将从设计动机、内部结构、数学原理以及关键设计决策四个层面完成拆解。一、设计动机1.1 现有桥接方式在VLA-Adapter模型之前主流的VL→A的桥接方式可以归纳为以下三类Raw特征直传直接提取VLM的最后一层特征凭借或交叉注意力传入Policy离散Token化将动作离散化为token与文本公用词表额外的Query接口插入可学习token作为VLM输入。这三种方式的弊端在于Raw特征直传因为只用了VLM最后一层所以丢失了中间层的丰富细节离散Token化容易导致量化误差Query以mask形式输入冻结骨干时无法训练。1.2 三大发现对桥接设计的要求基于上一节中的三大关键发现Bridge Attention需要满足以下设计目标访问Raw特征的中间层AQ深层最优需要足够的Transformer层全层最优策略网络的每一层都需要访问VLM对应层的特征。因此Bridge Attention需要同时接收Raw和AQ两类特征并且进行差异化处理。策略的每一层都需要接收VLM的每一层特征并让动作主动查询。二、内部结构论文设计了一种基于L1的策略网络。在时间t步策略网络的输入包括。其中是策略网络的层具有。是H步的初始动作全零通过层归一化LN和多层感知机MLP处理得到。为本体感知状态通过两层MLP映射得到本体嵌入。输出为步的动作块。每一层由桥接注意力模块和前馈网络FFN组成。桥接注意力架构如图所示。Bridge Attention位于Policy的每一层当中输入的是动作隐变量输出的是融合后的动作表征并且是由三路并行注意力组成论文所提出的Bridge Attention旨在通过条件和最大程度地引导动作生成。每个桥接注意力都是由两个交叉注意力和一个自注意力组成。第一个交叉注意力中通过MLP处理得到。动作潜在变量用作并且执行注意力操作得到。在第二个交叉注意力中需要与拼接并通过MLP得到。用作得到。自注意力中作为并有。注意力全称QK/V作用门控交叉注意力1动作隐变量Raw特征根据VLM中间层提取视觉-语言细节交叉注意力2动作隐变量AQ特征本体感受提取任务导向的深层语义无自注意力动作隐变量动作隐变量自身建模动作块内的时间连贯性无三路并行注意力的主要作用在于如果只用则缺乏语义难以理解复杂指令如果只用则缺乏视觉细节难以精准定位如果没有那么动作块内时间步之间缺乏连贯性动作可能不连续。对应了动作生成的三个必要条件看得准Raw 懂意图AQ 动得顺SA。三、数学原理为了将特定的选择性地注入到策略的动作空间中本文引入了一个学习参数比率g来调节的影响。g初始化为0值并采用tanh激活函数以防止极端值破坏分布的稳定性。核心公式如下拼接后的维度会变为原来的3倍再通过FFN投影回原始维度相当于让网络学习一个自适应的融合权重矩阵。四、三个关键设计决策决策1为什么Raw带门控AQ不带特征类型门控策略原因训练动态Raw来自预训练VLM分布与动作空间差异大初期≈0训练中g逐渐增大AQ1从零训练完全为动作生成优化全称无条件信任如果Raw无门控而AQ有门控则初期训练会崩溃——因为Raw的分布与动作输出完全不对齐。决策2为什么用tanh而非sigmoid激活函数范围效果适用性sigmoid[0,1]只能正注入无法抑制有害特征适合二值开关tanh[-1,1]允许负注入主动抑制某些层的有害Raw特征适合连续调节尽管训练后g通常收敛到正值但是负值的能力提供了更大的优化空间让模型在训练早起有机会关掉或者反转某些层带来的干扰。决策3为什么用交叉注意力而非简单拼接或者MLP融合方式计算复杂度信息检索能力可解释性简单拼接MLP低弱差交叉注意力中强好交叉注意力的核心优势是让动作主动查询——动作隐变量作为Q可以学习到应该关注Raw/AQ中的哪些部分。这种查询-检索模式天然适合条件生成任务。总结Bridge Attention本质上是让动作生成从“被动接收最后一层特征”升级为“主动查询全层条件特征”。动作同时查询Raw特征获取视觉细节、AQ特征获取任务语义、和自身历史获取时间连贯性Raw带可学习的门控单元tanh(g)AQ完全注入完全可信策略的每一层都需要主动访问VLM对应层的特征而非被动接收最后一层的“压缩摘要”。

相关新闻