百度蒸汽机2.0全球首发多人有声视频生成,成本直降70% 百度蒸汽机MuseSteamer 2.0实现全球首个多人有声中文视频一体化生成,采用多模态时空规划技术,支持电影级画质与高精度语音还原,成本降低70%,已通过百度搜索、绘想平台开放商用。 AI产品动态# AI视频生成# 人工智能技术# 多模态AI 6个月前
华为昇腾完成通义千问Qwen3-VL-30B-A3B多模态模型0day适配,AI生态建设迈入新阶段 华为昇腾生态完成阿里云通义千问Qwen3-VL-30B-A3B多模态模型的0day适配,实现发布即适配。该模型具备视觉代理、代码生成等能力,在昇腾平台推理效率提升40%,助力企业降低多模态AI应用门槛... AI产品动态# AI生态适配# 人工智能技术# 华为昇腾 4个月前
Hcompany发布Holo1.5开源多模态模型系列 720亿参数UI任务模型突破界面理解瓶颈 Hcompany发布Holo1.5开源多模态模型系列,720亿参数Holo-72B-UI模型在UI理解任务中达到89.3%完成率,支持自然语言操作Android应用。了解开源模型性能优势、技术特性及商... AI产品动态# AI多模态模型# Hcompany# Holo1.5 5个月前
阿里云通义万相开源Wan2.2-Animate动作生成模型,单图驱动视频生成实现技术突破 阿里云通义万相团队开源Wan2.2-Animate动作生成模型,突破单图生成动态视频技术,支持文本指令控制与4K实时生成,性能超越StableAnimator和Runway商业模型。开发者可通过Git... AI产品动态# AI视频生成# 人工智能技术# 动作生成模型 4个月前
快手发布可灵2.5 Turbo视频生成模型:成本降28%,动作幅度提升30% 快手正式发布可灵2.5 Turbo视频生成模型,实现动作幅度提升30%、成本降低28%的重大突破。该模型强化复杂指令理解能力,提升视觉一致性25%,为短视频创作者提供更经济高效的AIGC解决方案。 AI产品动态# AIGC# 人工智能技术# 可灵AI 4个月前
阿里国际开源多模态大模型Ovis2.5:视觉推理突破,中小企业AI应用门槛大降 阿里国际发布并开源多模态大模型Ovis2.5,9B与2B版本在OpenCompass评测领先,支持动态分辨率与跨模态推理。适用于电商、翻译及终端设备,助力企业低成本AI转型,技术全面开源。 AI产品动态# Ovis2.5# 人工智能技术# 多模态大模型 5个月前
蚂蚁数科发布多语种多模态大模型训练框架,突破小语种AI理解瓶颈 蚂蚁数科在香港金融科技节发布创新多语种多模态大模型训练框架,通过语言感知优化机制提升小语种理解能力,在主流多语言VQA基准测试中准确率提升9.5%,评测总分超越GPT-4o、Gemini等国际主流模型... AI产品动态# 人工智能技术# 多模态AI# 多语种大模型 3个月前
谷歌相册AI图生视频重磅升级:新增自定义提示词功能,视频生成精准度提升40% 谷歌相册6.48版本推出AI图生视频自定义提示词功能,用户可通过自然语言指令精准控制视频生成方向,基于Veo 3模型的技术升级使生成准确率提升40%,实现从随机创作到精准定制的跨越。 AI产品动态# AI视频生成# Veo模型# 人工智能技术 4个月前
苹果推出革命性AI图像生成系统STARFlow,挑战DALL-E与Midjourney市场地位 深度解析苹果STARFlow AI系统的技术突破:通过标准化流与Transformer融合实现高效图像生成,支持端到端训练与本地化部署,在医疗影像、电商视觉领域具颠覆性潜力。 AI产品动态# STARFlow# Transformer# 人工智能技术 5个月前
阿里巴巴发布通义万相2.6:国内首个支持角色扮演的AI视频生成模型,开启影视创作新纪元 阿里巴巴通义万相2.6模型正式发布,作为国内首个支持角色扮演的AI视频生成技术,可实现基于人物外观与音色的定制化视频生成,提升至15秒时长,适用于影视、广告及短剧制作,现已上线阿里云百炼平台,助力企业... AI产品动态# AI商业化# AI视频生成# 人工智能技术 2个月前