美团开源SOTA虚拟人视频生成模型LongCat-Video-Avatar，实现动作拟真与情感表达突破

AI产品动态2个月前发布 AI视野

美团 LongCat团队于2025年12月18日正式开源了其最新研发的SOTA级虚拟人视频生成模型LongCat-Video-Avatar。该模型基于此前发布的LongCat-Video基座构建，通过底层架构的全面升级，在动作拟真度、长视频稳定性与身份一致性三大技术维度实现突破，标志着虚拟人视频生成技术进入新阶段。

作为首个同时支持文本、图片和视频三种生成模式的全能模型，LongCat-Video-Avatar采用创新的“解耦无条件引导”（Disentangled Unconditional Guidance）训练方法，使虚拟人在静音状态下仍能呈现自然的人类行为，如眨眼、调整坐姿等。这种技术突破有效解决了传统虚拟人视频中动作僵化的问题，实现了从“机械表演”到“情感表达”的跨越。在音频驱动场景下，模型不仅能精准控制唇形，还能同步协调眼神、表情及肢体动作，形成丰富的多模态情感表达。

针对长视频生成中的技术瓶颈，团队提出“跨片段隐空间拼接”策略，避免重复编解码导致的画质退化，可支持长达5分钟的连贯视频生成。身份一致性方面，模型通过带位置编码的参考帧注入与“参考跳跃注意力”机制，在保持角色特征稳定的同时减少动作僵化。在HDTF、CelebV-HQ等权威数据集的定量评测中，该模型在唇音同步精度、情感表现力等核心指标上均达到当前最先进水平。

此次开源的技术成果已同步发布在GitHub、Hugging Face等平台，为开发社区提供了包括Audio-Text-to-Video、Audio-Text-Image-to-Video及视频续写等核心功能的完整工具链。美团表示，该技术将逐步应用于其自动驾驶、具身智能等深度交互业务场景，推动数字世界与物理世界的深度融合。

AI产品动态 # AI # LongCat # SOTA技术 # 人工智能 # 开源模型 # 美团 # 虚拟人 # 视频生成

文章版权归作者所有，未经允许请勿转载。

美团开源SOTA虚拟人视频生成模型LongCat-Video-Avatar，实现动作拟真与情感表达突破

谷歌发布AI助手CC：基于Gemini大模型，整合Gmail、日历打造个性化工作流

xAI推出Grok Voice Agent API：支持多语言实时语音交互，定价0.05美元/分钟

相关文章

西班牙Multiverse发布微型AI模型ChickBrain和SuperFly，推动边缘AI技术发展

科大讯飞无锡AI加速中心启用长三角AIoT协同创新联盟启动

OpenAI挖角苹果硬件团队，40+工程师跳槽引发AI硬件争夺战

字节跳动发布豆包编程模型：国内首款支持视觉理解的编程AI，成本降低62.7%

最新资讯

热门AI工具

热门资讯

美团开源SOTA虚拟人视频生成模型LongCat-Video-Avatar，实现动作拟真与情感表达突破

谷歌发布AI助手CC：基于Gemini大模型，整合Gmail、日历打造个性化工作流

xAI推出Grok Voice Agent API：支持多语言实时语音交互，定价0.05美元/分钟

相关文章

西班牙Multiverse发布微型AI模型ChickBrain和SuperFly，推动边缘AI技术发展

科大讯飞无锡AI加速中心启用 长三角AIoT协同创新联盟启动

OpenAI挖角苹果硬件团队，40+工程师跳槽引发AI硬件争夺战

字节跳动发布豆包编程模型：国内首款支持视觉理解的编程AI，成本降低62.7%

最新资讯

热门AI工具

热门资讯

科大讯飞无锡AI加速中心启用长三角AIoT协同创新联盟启动