在AI图像生成技术日新月异的当下,腾讯再次抛出重磅技术方案,试图重新定义AI绘画的真实感边界。最新推出的图像优化方法,仅用32块H20显卡训练10分钟,便实现了模型的快速收敛,人工评分更是飙升超过300%,展现出惊人的效率与效果。

尽管当前主流的扩散模型已普遍引入奖励机制以提升图像质量,但其固有缺陷始终制约着进一步发展。一方面,优化过程中的训练步数有限,模型容易陷入“奖励作弊”的怪圈——即为了迎合评分标准而生成看似高分实则质量低劣的图像;另一方面,传统的离线奖励模型调整方式僵化,难以适应动态、实时的优化需求,严重限制了生成效果的持续提升。
面对这些瓶颈,腾讯研究团队祭出两大核心技术突破。其一是“Direct-Align”训练策略,通过在训练初期主动注入噪声,使模型具备从任意时间点还原原始图像的能力。这一设计有效缓解了早期反向传播中常见的梯度爆炸问题,从而让整个扩散过程中的每一步都能参与优化,而非仅仅依赖最后几个阶段,极大增强了模型的稳定性与学习深度。
另一项关键创新则是“语义相对偏好优化”(SRPO)。该方法巧妙地将抽象的奖励信号转化为可由文本精确调控的参数。通过引入正负向提示词对比,模型能够理解并响应用户对风格、色调或细节的细微偏好,实现无需额外标注数据的灵活调整。例如,只需在提示词前加入“更明亮”或“更具油画感”等简单指令,系统即可自动生成符合预期的图像变体,大幅降低使用门槛。
实测数据印证了这一技术组合的卓越表现。在涵盖3200个多样化提示的大规模测试中,经SRPO优化的FLUX.1-dev模型在真实感维度的优秀率从原先的8.2%跃升至38.9%,美学评分的优秀率也从9.8%攀升至40.5%。更重要的是,相较于其他优化方案,SRPO生成的画面不仅更具视觉吸引力,其纹理细节也更为细腻自然,几乎难以辨识为AI产物。
此次技术突破不仅是腾讯在AIGC视觉领域的一次强势亮相,更揭示了未来AI图像生成的发展路径——即通过更智能的训练机制与更人性化的交互方式,让机器真正理解并满足人类对美的复杂需求。
论文地址:https://arxiv.org/pdf/2509.06942
