字节等提出DanceOPD:在线蒸馏统一T2I与编辑,互不冲突

字节等提出DanceOPD:在线蒸馏统一T2I与编辑,互不冲突
DanceOPD: On-Policy Generative Field Distillation作者Wei Zhou, Xiongwei Zhu, Zelin Xu, Bo Dong, Lixue Gong, Yongyuan Liang, Meng Chu, Leigang Qu, Lingdong Kong, Wei Liu, Tat-Seng Chua核心发表机构ByteDance Seed、NUS、UMD、HKUST论文链接arXiv:2606.27377v1发布于arXiv 预印本cs.CV一、核心贡献 / Core Contributions提出DanceOPD一种用于流匹配模型的在策略生成式场蒸馏框架将多能力组合问题形式化为在共享流状态空间中对多个冻结专家速度场的蒸馏问题通过硬路由、在策略查询和语义侧单次查询三个关键设计有效解决了能力冲突。识别并分析了多能力场蒸馏中的三个核心对齐挑战目标场模糊性Target-Field Ambiguity、状态分布不匹配State-Distribution Mismatch和轨迹查询相关性Trajectory-Query Correlation并通过消融实验证明默认设计硬路由 在策略单查询 简单 MSE能同时应对这三项挑战。在T2I 与编辑组合、局部与全局编辑组合、真实性场吸收和CFG 吸收四类实验场景上DanceOPD 均显著优于联合训练、权重合并、离策略蒸馏及现有的在策略蒸馏方法等基线在提升目标能力的同时保持甚至提升锚点生成质量。证明了简单 velocity MSE 损失在该框架下的最优性和稳定性并揭示了密集查询多个状态因轨迹相关性而劣于单次查询低噪声语义侧查询是关键。二、研究背景与动机 / Background Motivation现代图像生成模型要求单个模型同时拥有文本到图像T2I、局部编辑、全局编辑等多种能力。然而这些能力在训练数据分布和优化目标上天然不对齐甚至相互冲突。例如在 T2I 模型中加入编辑能力往往会损害 T2I 的生成质量局部编辑注重保真度与全局编辑允许较大视觉变化同时训练时会互相干扰。传统的多能力组合方法包括联合训练数据混合导致梯度冲突、权重合并参数插值产生折中、推理时分数组组合增加推理成本以及离策略蒸馏状态分布偏移导致有偏监督。这些方法都无法在消除能力冲突的同时保留每种能力的原有效果。DanceOPD 的动机是将每种冻结的专家能力源视为定义在共享流状态空间上的一个速度场通过在策略蒸馏让学生模型在其自身 rollout 轨迹的状态上查询这些能力场从而内化多种能力。该框架将能力组合转化为一个场查询问题需要回答三个耦合的子问题① 每个样本应该由哪个能力场监督② 在什么状态上查询该场③ 从一条 rollout 轨迹中查询多少个状态DanceOPD 的答案分别是硬路由每个样本只路由到一个能力场、在策略查询在 student 自身当前 rollout 的低噪声状态上查询和单查询每样本只查询一个状态。图 1 给出了 DanceOPD 的总体视角多个冻结的专家能力场T2I、局部编辑、全局编辑等定义在共享的流状态空间上学生通过硬路由选择其中一个场并在其自身 rollout 的语义侧状态上查询该场通过速度 MSE 训练。三、方法 / Methodology3.1 总体框架 / Overall ArchitectureDanceOPD 的输入是M ≥ 2 M \ge 2M≥2个冻结的专家能力源{ v m } m 1 M \{v_m\}_{m1}^{M}{vm​}m1M​每个能力源定义在其特定数据分布D m \mathcal{D}_mDm​上学生模型为v θ v_\thetavθ​参数可通过 LoRA 微调。每个训练步包含三个步骤硬路由从先验路由概率π ( m ) \pi(m)π(m)通常均匀分布采样一个能力索引m mm并从对应数据集D m \mathcal{D}_mDm​采样一个样本( x , c ) (x, c)(x,c)。这样每个样本只归属于一个能力场避免了目标场模糊性。在策略查询学生从初始噪声z T z_TzT​开始利用当前参数v θ v_\thetavθ​进行完整 ODE rollout默认 16 步 Euler得到轨迹{ z t k θ } \{z_{t_k}^\theta\}{ztk​θ​}。从语义侧时间分布q sem ( s ) q_{\text{sem}}(s)qsem​(s)Beta(5,2)偏向低噪声区域采样一个归一化坐标s ss映射为物理时间t tt提取学生状态z t θ z_t^\thetaztθ​并应用停止梯度z ˉ t sg ( z t θ ) \bar{z}_t \text{sg}(z_t^\theta)zˉt​sg(ztθ​)。然后查询冻结专家场v m ( z ˉ t , t , c ) v_m(\bar{z}_t, t, c)vm​(zˉt​,t,c)作为监督目标。速度匹配计算学生预测速度v θ ( z ˉ t , t , c ) v_\theta(\bar{z}_t, t, c)vθ​(zˉt​,t,c)与目标速度之间的均方误差L D a n c e O P D E m ∼ π , ( x , c ) ∼ D m , z T ∼ p T , s ∼ q sem [ ∥ v θ ( z ˉ t , t , c ) − v m ( z ˉ t , t , c ) ∥ 2 2 ] , t t ( s ) . \mathcal{L}_{\mathrm{DanceOPD}} \mathbb{E}_{m\sim\pi,\,(x,c)\sim\mathcal{D}_m,\,z_T\sim p_T,\,s\sim q_{\text{sem}}} \left[\|v_\theta(\bar{z}_t,t,c)-v_m(\bar{z}_t,t,c)\|_2^2\right], \quad tt(s).LDanceOPD​Em∼π,(x,c)∼Dm​,zT​∼pT​,s∼qsem​​[∥vθ​(zˉt​,t,c)−vm​(zˉt​,t,c)∥22​],tt(s).优化时梯度仅通过学生网络传播不回溯到 rollout 过程。该框架也可吸收算子定义的速度场例如无分类器引导CFG场v α ( z t , t , c ) v ∅ ( z t , t ) α ( v c o n d ( z t , t , c ) − v ∅ ( z t , t ) ) v_{\alpha}(z_t,t,c) v_{\emptyset}(z_t,t) \alpha\bigl(v_{\mathrm{cond}}(z_t,t,c)-v_{\emptyset}(z_t,t)\bigr)vα​(zt​,t,c)v∅​(zt​,t)α(vcond​(zt​,t,c)−v∅​(zt​,t))将其视为一个额外的能力场通过 MSE 目标蒸馏进学生。3.2 关键模块 / Key Modules硬路由Hard Routing与软教师混合对多个教师输出取平均不同硬路由为每个样本分配一个明确的教师。这避免了不同能力场之间反向梯度的混合防止目标方向模糊。消融表显示硬路由比软混合在 MSE 目标下提升 15.2%在 KL 目标下提升 10.6%。在策略状态查询On-Policy State Query核心思想是学生必须在其当前策略产生的状态上查询教师否则会产生状态分布不匹配。理论分析表明若教师场是L m L_mLm​-Lipschitz 连续的离策略状态与在策略状态之间的偏差会导致有偏监督误差上界为L m ∥ z t θ − z ~ t ∥ 2 L_m\|z_t^\theta - \tilde{z}_t\|_2Lm​∥ztθ​−z~t​∥2​。DanceOPD 通过从学生自身的 ODE rollout 中抽取状态来消除该偏差。图 3 概念性地展示了这一设计教师场在学生轨迹而非数据分布上被查询。语义侧单查询Semantic-Side Single Query默认只从一条 rollout 轨迹中查询一个状态K 1 K1K1且该状态来自低噪声区域Beta(5,2) 分布。理由有二一是低噪声状态包含更密集的能力特定信息如编辑属性、风格等二是从同一条轨迹中查询多个状态会产生高度相关的梯度残差导致方差缩减失效。实验表明密集查询K 1 K1K1平均损失 16.6-22.8% 的性能且 SDE 去相关只能部分弥补。四、实验 / Experiments4.1 数据集与评估指标 / Datasets Metrics实验使用 Z-Image 模型作为骨干训练 DiT LoRA秩 128。评估指标GEditBench-EN用于图像编辑包含六类子任务Subject Addition, Subject Replacement, Background Change, Style Change, Color Alteration, Subject Removal报告平均分。推理 28 步CFG scale 7.0。GenEval用于 T2I 生成含 Single Object, Two Objects, Counting, Colors, Position, Color Attribution 及总体评分。推理 28 步CFG scale 3.5。Realism Reward专有逼真度评分模型用于真实性场吸收实验。4.2 主实验结果 / Main ResultsT2I 与编辑组合DanceOPD 在 GEditBench 平均分上达到5.347显著高于联合训练4.617、权重合并0.344、离策略蒸馏4.528、DiffusionOPD4.947和 Flow-OPD4.854GenEval 总体分 0.849 同样最高优于图 5 展示的 T2I 源教师0.829和编辑源教师的表现。定性结果见图 2、图 5、图 9、图 11、图 12 等。局部与全局编辑组合DanceOPD 在 GEditBench 平均分5.498比最佳竞争组合基线高 16.1%GenEval 总体分 0.848 高于所有对比基线。真实性场吸收相比离策略蒸馏DanceOPD 的真实性奖励提升9.9%弥合学生-教师奖励差距的 85.3%同时 GenEval 分数与离策略蒸馏持平0.1%差异比基础学生模型高 7.6%。效果如图 7 所示。CFG 吸收最佳组合为训练时吸收α 3.5 \alpha3.5α3.5的 CFG、推理时应用β 2 \beta2β2有效强度约 7.0GEditBench 平均分5.833优于仅训练吸收5.422和仅推理应用5.751。过度吸收α 7 , β 7 \alpha7,\beta7α7,β7会导致性能骤降至 4.015。图 6 展示了 CFG 吸收的 rollout 诊断。4.3 消融实验 / Ablation Study路由与聚合诊断硬路由 vs. 软教师混合硬路由在 MSE 目标下平均提升 15.2%在 KL 目标下提升 10.6%。同一步积累多个能力桶G 3 G3G3导致性能损失 4.6%且能力间失衡进一步加入密集查询后损失扩大至 22.8%。SDE rollout 可部分改善密集查询下的性能提升 18.4%但仍低于单查询 8.6%。查询噪声水平语义侧低噪声Beta(5,2)查询相比中噪声Beta(5,5)改善 23.7%相比高噪声Beta(2,5)改善 19.5%在所有子类别上均占优。查询密度单查询K 1 K1K1显著优于多查询K 2 , 4 , 8 , 16 K2,4,8,16K2,4,8,16平均分分别高出 16.6%/7.9%/10.2%/12.2%。密集查询的失效原因被诊断为轨迹相关性。图 8 展示了路由、目标与密集查询的诊断结果。损失函数简单 velocity MSE 性能最佳且最稳定优于时间步加权 MSE2.8%、一致性匹配4.1%、KL-σ ˉ 2 \bar{\sigma}^2σˉ2匹配4.5%及 DMD2/AuxFeat 变体。初始化使用相关能力最强的检查点初始化至关重要局部编辑用局部编辑 LoRA 初始化比用 T2I 初始化高 204.4%。图 10 展示了初始化及时间步消融趋势。训练 rollout 步数16 步 ODE rollout 最优并非步数越多越好。图 9 展示了训练过程中局部和全局编辑组合的进展。五、相关工作 / Related Work多能力组合数据混合/联合训练存在梯度冲突权重合并/Adapter 组合产生折中方案推理时分数组合独立于学生模型。DanceOPD 独特地将冻结能力视为速度场通过学生自身 rollout 上的在策略蒸馏内化能力避免了上述方法的典型问题。在策略蒸馏OPD现有工作如 DiffusionOPD、Flow-OPD 关注模型压缩或自蒸馏DanceOPD 则专门研究如何通过 OPD 框架组合多个异构能力引入新问题并给出答案硬路由 语义侧单查询。生成式场蒸馏先前工作如推理时分数组合、多任务优化、离策略蒸馏未说明多能力场在蒸馏过程中如何查询。DanceOPD 填补了该空白提出了三个关键设计决策。六、局限性与展望 / Limitations Future Work共享场支持DanceOPD 假设所有冻结能力源定义在同一个共享生成状态空间上相同的骨干、潜在表示、调度器约定和速度参数化限制了向更异构源如不同模型的融合扩展。预定义路由当前依赖基于任务身份的预定义能力桶和硬路由。当任务边界模糊或一个提示同时需要多种能力时预设路由可能失效。自然扩展是引入验证器或奖励模型自动分配路由。CFG 吸收的线性近似训练吸收 CFG 后推理再应用 CFG 的效果近似于乘积关系但并非完美线性需手动选择超参数过度吸收会导致性能退化。实验范围当前在 Z-Image 模型和特定 LoRA 上验证未在更大基础模型如 SD3.5上使用 MAR 等组件对比Flow-OPD 的复现被限制在无 MAR 版本。未来可在更广泛设置下验证。七、总结 / ConclusionDanceOPD 提出了一种简单而有效的在策略生成式场蒸馏框架通过硬路由、在策略查询和语义侧单查询三个关键设计成功将多种冲突的图像生成能力T2I、局部编辑、全局编辑、真实感增强、CFG 引导组合到单一流匹配学生模型中。实验在多个组合场景及场吸收任务上均取得显著领先消融研究深入支撑了设计选择的合理性。该工作为流匹配模型的多能力蒸馏提供了实用路线并为更通用的能力组合研究开辟了方向。原文摘要:Modern image generation demands a single model that unifies diverse capabilities, including text-to-image (T2I), local editing, and global editing. However, these capabilities are rarely naturally aligned and often conflict. For instance, editing tends to degrade T2I performance, while global and local editing interfere with each other. Consequently, effectively composing these capabilities has become a central challenge for image generation model training. To tackle this, we introduce DanceOPD, an on-policy generative field distillation framework for flow-matching models that routes each sample to one capability field, queries one low-noise student-induced state, and trains with a simple velocity MSE objective. With each capability source defined as a velocity field over the shared flow state space, the student learns from fields queried on its own rollout states to compose expert capabilities. This formulation also absorbs operator-defined fields such as classifier-free guidance. Comprehensive experiments on T2I, editing, realism-field absorption, and CFG absorption show that our approach improves multi-capability composition, strengthening target capabilities while preserving anchor generation quality. We believe this work establishes a practical route for generative field distillation in flow-matching models.PDF链接:https://arxiv.org/pdf/2606.27377v1部分平台可能图片显示异常请以我的博客内容为准