腾讯混元大模型团队近日发布了一项突破性技术进展,通过Direct-Align与语义相对偏好优化(SRPO)两项核心创新,显著提升了AI绘画模型的训练效率与生成质量。实验数据显示,新方法使FLUX1.dev模型在人工评估中的真实感与美学评分提升达300%,且仅需32块H20 GPU训练10分钟即可收敛。
技术痛点与解决方案
当前扩散模型普遍存在两大局限:一是优化步骤集中于后期时间步,易引发”奖励作弊”现象,即模型为获取高分生成低质图像;二是依赖离线调整奖励模型,灵活性不足。对此,团队提出:
1. Direct-Align技术:通过预设噪声先验实现全轨迹优化。该方法能在任意时间步(包括仅5%去噪进度的早期阶段)恢复图像基础结构,避免传统方法因梯度爆炸导致的早期优化缺失。实验表明,该方法将”奖励作弊”现象减少约40%,尤其在规避HPSv2对红色调、PickScore对紫色图像的过度偏好方面效果显著。
2. SRPO(语义相对偏好优化):将奖励信号重构为文本条件驱动模式。通过正负提示词(如”Realistic photo”与”Blurry”)计算奖励差值,实现在线动态调控。该方法使模型无需额外数据即可适配多样化需求,例如通过调整提示词实现亮度分级(+2EV至-2EV)或风格转换(如漫画化)。在FLUX.1-dev模型中,SRPO使真实感提升3.7倍,美学质量提升3.1倍。
性能突破
在HPDv2基准测试中,SRPO将优秀率从基线8.2%提升至38.9%(真实感)和40.5%(美学质量),总体偏好度达29.4%。相较于ReFL、DRaFT等方法,SRPO生成的图像纹理更自然,有效避免了DanceGRPO常见的伪影问题。值得注意的是,控制词效果与其训练集频率强相关——高频词(如”painting”)单独使用即可生效,低频词需与高频词组合优化。
行业影响
该技术已应用于混元图像模型2.1版本,支持原生2K分辨率生成与多语言提示词理解。开发者反馈,SRPO的在线调控特性使其具备”下一代RLHF”潜力,有望重塑AI艺术创作工作流。团队同步开源了相关代码,GitHub仓库显示其支持通过PromptEnhancer自动补全复杂语义(如将”古风少年”扩展为”黑发束冠,青衫折扇”的细节描述),进一步降低使用门槛。
© 版权声明
文章版权归作者所有,未经允许请勿转载。