VAREdit突破AI图像编辑瓶颈：自回归框架实现0.7秒高保真编辑

AI产品动态9个月前发布 AI视野

近日，智象未来科研团队正式发布全球首个纯自回归图像编辑框架VAREdit，该技术突破将高保真图像编辑速度提升至0.7秒级，标志着AI图像编辑领域进入高效精准的新阶段。作为开源项目，VAREdit已在GitHub和Hugging Face平台开放访问。

传统扩散模型在图像编辑中存在局部修改影响整体结构、迭代效率低下等固有缺陷。VAREdit创新性地采用视觉自回归（VAR）架构，将编辑任务重构为”下一尺度预测”过程，通过逐层生成多尺度残差特征，在保持图像整体结构的同时实现像素级精准修改。研发团队特别设计的尺度对齐参考（SAR）模块，有效解决了跨尺度特征匹配的技术难题，使编辑质量与效率获得双重提升。

在EMU-Edit和PIE-Bench权威测试中，VAREdit展现出显著优势。其8.4B参数版本在GPT-Balance指标上较ICEdit和UltraEdit分别提升41.5%和30.8%；轻量级2.2B版本仅需0.7秒即可完成512×512分辨率图像的高质量编辑，速度达到同类产品的数倍。测试数据证实，该框架能精准理解用户指令，有效避免过度编辑现象。

智象未来团队表示，VAREdit的开源将加速AI图像编辑技术的产业化进程，未来计划拓展视频编辑、多模态生成等应用场景。该框架的推出为实时交互式创作提供了新的技术范式，有望重塑数字内容生产的工作流程。

文章版权归作者所有，未经允许请勿转载。

VAREdit突破AI图像编辑瓶颈：自回归框架实现0.7秒高保真编辑

DeepSeek-V3.1重磅发布：国产AI芯片适配突破，算力效率提升300%

谷歌Gemini 2.5 Flash图像模型发布：多模态编辑精度超越GPT-4o 15%

相关文章

上海AI实验室发布MinerU2.5文档解析大模型，性能超越GPT-4o等主流模型

阿尔特发布三大AI核心工具，重构汽车研发流程，携手10家产业伙伴共建生态矩阵

SK电信发布韩国首个超大规模AI模型A.X K1，5190亿参数引领本土AI突破

特斯拉在美国推出Tesla Ride服务：亲身体验FSD自动驾驶与Grok AI互动

最新资讯

热门AI工具

热门资讯