腾讯混元开源UniRL，把大模型和扩散模型装进同一套RL框架

腾讯混元开源UniRL，将大语言模型与扩散模型纳入同一套强化学习后训练框架，使文本、视觉语言、图像和视频生成模型得以共用统一训练循环。针对扩散与流匹配模型，混元团队推出flow-dppo算法，利用流匹配模型每步策略的高斯分布特性，直接用KL散度约束策略更新，并通过不对称发散掩码避免模型偏离过远，保持稳定收敛。针对语言大模型，团队同步推出drpo算法，引入优势加权的二次正则项代替硬截断，确保模型偏离目标分布时仍能获得连续的梯度纠偏信号。