文昌预应力钢绞线价格西湖大学提出RDPO强化学习框架，实现扩散模型并行理加速

用扩散模型（比如 Stable Diffusion）一张张"挤"出分辨率图像的时代，正在被世界模型实时生成清视频的浪潮冲刷。

但无论图像还是视频，扩散模型骨子里的"顺序去噪"过程，就像一场无法并行的接力赛，成为速度提升的终瓶颈。

如何在不伤及模型"绘画功力"的前提下，为它装上加速引擎？

西湖大学 AGI Lab 提出的RDPO（残差狄利克雷策略优化）框架，给出了一种巧妙的答案：不改动模型本身，而是优化它的"采样航系统"。

扩散模型（DMs）虽然取得了的生成能，但由于其顺序去噪的特，面临着采样延迟的问题。现有的基于求解器的加速方法在低延迟预算下往往面临严重的图像质量退化，这主要是由于无法捕获曲率轨迹段而致的累积截断误差所致。

集成并行方向求解器（Ensemble Parallel Direction Solver，简称 EPD-Solver）通过在每一步中整合多个并行梯度评估来减少此类误差。受采样轨迹基本受限于低维流形这一几何洞察的启发，EPD-Solver 利用向量值函数均值定理更准确地逼近积分解。

重要的是，由于额外的梯度计算是立的，它们可以完全并行化，从而保持低延迟采样的特。

团队引入了一个两阶段优化框架：初，EPD-Solver 通过基于蒸馏的方法优化一小组可学习参数；随后，团队进一步提出了一种参数的强化学习微调框架RDPO，将求解器重新构建为随机的狄利克雷（Dirichlet）策略。

与微调庞大骨干网络的传统方法不同，团队的 RL 方法严格在低维求解器空间内运行，在增强复杂文本到图像（T2I）生成任务能的同时，有缓解了奖励作弊（Reward Hacking）现象。此外，团队的方法具有灵活，可以作为插件（EPD-Plugin）来改进现有的 ODE 采样器。

通过大量实验，证明了 EPD-Solver 的有以及 RDPO 框架的优越。在相同步数下，该方法在 CIFAR-10、FFHQ、ImageNet 等多个基准测试中取得了领先的图像生成果，展示出其在低延迟质量生成任务中的巨大潜力。

在 Text-to-Image 任务中，经过 RDPO 优化的 EPD-Solver 显著提升了 Stable Diffusion v1.5 和 SD3-Medium 的生成能力，在更少的步数下，达到更优的质量。

能否在不乱动模型大笔触的前提下，优雅地完成加速与对齐？

早在上半年，西湖大学 AGI Lab 就发表了初版 EPD-Solver，通过并行计算采样轨迹某些中间点的梯度，钢绞线来优化每一步去噪的方向，实现在较低步数下提升生成质量。

近期，团队提出了RDPO（残差狄利克雷策略优化）框架，来进一步提升 EPD-Solver 采样器的能力。

它不去暴力拆解模型本体，而是将目光锁定了求解器的参数空间。

核心秘籍：站在"巨人"肩膀上的低维残差微调

RDPO 的设计精髓可以概括为：先找准基准线，再做残差微调。

既然模型骨干（Backbone）已经很强了，为什么不只优化采样路径上的几个关键节点？

团队将任务转化为了一个低维空间的策略优化问题：

1. 一阶段：锁定精度"赛道"

团队先利用轨迹蒸馏技术，让 EPD-Solver 学习精度教师求解器（如 DPM-Solver-2）的采样路径。这一步决定了采样的"基本盘"，确保画出来的东西在物理逻辑上是正确的。

2. 二阶段：残差策略优化

这是 RDPO 亮眼的部分。团队没有让 RL 去直接修改几亿参数的模型，而是将其建模为一个残差策略：

非零起点：RL 并不是在真空中探索，而是将一阶段得到的参数作为起始策略。

只学"偏移量"：RDPO 在对数浓度空间（Log-concentration space）中只学习一个小的残差项。这意味着 AI 只能在已经很的采样路径附近进行修正。

手机号码：13302071130

这种"残差"设计就像是给赛车手提供了一条的职业赛车线，RL 只是在入弯角度上做微调，而不是重新发明怎么开车。

告别"奖励作弊（RewardHacking）"

RDPO 避开了这个坑：

低维屏障：优化空间被严格限制在求解器参数层面。AI 失去了修改底层像素纹理的"作案工具"，只能通过改变采样节点的权重来对齐审美。

物理约束：由于是基于狄利克雷分布的残差优化，采样轨迹始终被约束在数学上的单纯形（Simplex）空间内。

HPS v2.1 不同模型和分辨率下的训练动态评分：

训练过程中生成样本图像的演变：

以下是经过 RDPO 优化的 EPD-Solver 在文生图（T2I）任务的表现：

部分在数据集上的定量测试结果：

RDPO 的成功证明了：质量的生成不一定要靠堆算力去硬磕大模型参数，巧妙的优化策略往往能以小的代价换取大的增益。它不仅解决了加速问题，更提供了一种其稳健的 RLHF 对齐新范式。

（文中的所有展示图片都截取自原论文）

该研究的一作者是来自西湖大学的博士生王若禹，伊利诺伊大学香槟分校的本科生李子誉，和南洋理工大学的博后朱贝尔，指老师是西湖大学助理教授张驰，该研究是在团队 ICCV 2025 录用论文 EPD-Solver 基础上的扩展（https://arxiv.org/abs/2507.14797）。

西湖大学 AGI Lab 由张驰教授指，致力于探索下一代通用人工智能技术。

论文题目：

Parallel Diffusion Solver via Residual Dirichlet Policy Optimization

论文地址：

https://arxiv.org/abs/2512.22796

项目地址：

https://epd-solver.github.io/

GitHub 链接：

https://github.com/BeierZhu/EPD

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

在生产设备方面，配备 12 条 500 吨至 4500 吨的自动化挤压生产线，同时拥有氧化电泳线、立式喷涂线、穿条隔热、注胶、仿木纹转印设备等全套铝型材生产线和表面处理设备，以及精度切割、钻、铣等加工设备，搭配全自动立体仓库，实现从原材料加工到成品存储的全流程运转。检测环节同样严格，拥有光学影像测量投影仪、原材料检测光谱仪等全套检测设备。团队层面，业工程师平均拥有 10 年左右行业经验，凭借扎实的技术功底，为产品质量与生产率保驾护航。

宝克力PLEXIGLAS是德国罗姆集团 ( Röhm Group )旗下的品。该品由原赢创集团 ( Evonik Industries )的PMMA业务剥离后立运营，现隶属于罗姆集团，是全球甲基丙烯酸酯化学领域的领先供应商。 ‌

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 � �

感兴趣的小伙伴欢迎关注 � � 了解详情

� � 点亮星标 � �

科技前沿进展每日见文昌预应力钢绞线价格

直径15.2钢绞线_天津瑞通预应力钢绞线

直径15.2钢绞线_天津瑞通预应力钢绞线

文昌预应力钢绞线价格西湖大学提出RDPO强化学习框架，实现扩散模型并行理加速

热点资讯

推荐资讯

最新资讯

直径15.2钢绞线_天津瑞通预应力钢绞线

直径15.2钢绞线_天津瑞通预应力钢绞线

文昌预应力钢绞线价格 西湖大学提出RDPO强化学习框架，实现扩散模型并行理加速

热点资讯

推荐资讯

最新资讯

文昌预应力钢绞线价格西湖大学提出RDPO强化学习框架，实现扩散模型并行理加速