VAREdit突破AI图像编辑瓶颈:自回归框架实现0.7秒高保真编辑

近日,智象未来科研团队正式发布全球首个纯自回归图像编辑框架VAREdit,该技术突破将高保真图像编辑速度提升至0.7秒级,标志着AI图像编辑领域进入高效精准的新阶段。作为开源项目,VAREdit已在GitHub和Hugging Face平台开放访问。

传统扩散模型在图像编辑中存在局部修改影响整体结构、迭代效率低下等固有缺陷。VAREdit创新性地采用视觉自回归(VAR)架构,将编辑任务重构为”下一尺度预测”过程,通过逐层生成多尺度残差特征,在保持图像整体结构的同时实现像素级精准修改。研发团队特别设计的尺度对齐参考(SAR)模块,有效解决了跨尺度特征匹配的技术难题,使编辑质量与效率获得双重提升。

在EMU-Edit和PIE-Bench权威测试中,VAREdit展现出显著优势。其8.4B参数版本在GPT-Balance指标上较ICEdit和UltraEdit分别提升41.5%和30.8%;轻量级2.2B版本仅需0.7秒即可完成512×512分辨率图像的高质量编辑,速度达到同类产品的数倍。测试数据证实,该框架能精准理解用户指令,有效避免过度编辑现象。

智象未来团队表示,VAREdit的开源将加速AI图像编辑技术的产业化进程,未来计划拓展视频编辑、多模态生成等应用场景。该框架的推出为实时交互式创作提供了新的技术范式,有望重塑数字内容生产的工作流程。

© 版权声明

相关文章