多模态AI

OpenAI秘密测试GPT-Alpha智能体：基于GPT-5的多模态AI或将重塑行业

OpenAI被曝正在测试基于GPT-5模型的全新AI智能体GPT-Alpha。该技术突破传统生成式AI边界，支持文本、代码、图像多模态协同处理，具备高级推理与工具使用能力。本文详解其核心功能、应用场景...

8个月前

谷歌Mixboard AI工具公测：生成式AI重塑创意设计流程

本文深度解析谷歌Mixboard AI工具的核心功能与技术优势，探讨其如何通过Gemini 2.5 Flash模型和自然语言交互，为家居设计、活动策划等场景提供高效可视化解决方案。

AI产品动态 # Mixboard # NanoBanana # 公测

8个月前

阿里通义万相Wan2.5发布：实现音画同步AI视频生成，10秒1080P影视级输出

阿里巴巴正式发布通义万相Wan2.5 Preview模型，突破多模态AI生成技术，实现音画同步的10秒1080P视频生成能力，支持文生视频、图生视频等核心功能，大幅降低影视内容制作成本。

AI产品动态 # AI技术 # AI视频生成 # 云栖大会

8个月前

谷歌Gemini AI助手正式登陆Google TV，开启家庭娱乐智能新纪元

谷歌Gemini AI助手正式登陆Google TV平台，支持自然语言交互的个性化影视推荐、剧情回溯及跨设备生态联动。本文详解Gemini在电视端的功能特性、支持机型及对智能家居生态的影响。

AI产品动态 # AI助手 # GoogleTV # TCL电视

8个月前

生数科技完成数亿元A轮融资，加速多模态大模型Vidu全球商业化布局

生数科技完成数亿元A轮融资，领跑多模态AI赛道。Vidu模型覆盖200+国家，年收入超2000万美元。融资助力技术研发与全球商业化，对标Google Nano Banana。

AI新闻资讯 # AI融资 # A轮融资 # Vidu模型

8个月前

Luma AI发布全球首款多模态推理视频模型Ray3，支持4K HDR生成与智能修正

Luma AI推出全球首款多模态推理视频模型Ray3，支持16位HDR生成、4K输出与智能修正功能，深度集成Adobe工作流。了解其技术优势、商业应用及对AI视频行业的影响。

AI产品动态 # Adobe # AI视频生成 # LumaAI

8个月前

Mistral AI开源多模态推理模型Magistral Small 1.2：240亿参数支持视觉与多语言处理

深度解析Mistral AI最新开源推理模型Magistral Small 1.2的技术特性：240亿参数规模、多模态输入支持、可验证推理架构及商业应用场景，助力开发者构建下一代企业级AI解决方案。

AI产品动态 # AI技术 # MistralAI # 人工智能

8个月前

阿里云通义万相开源Wan2.2-Animate动作生成模型，单图驱动视频生成实现技术突破

阿里云通义万相团队开源Wan2.2-Animate动作生成模型，突破单图生成动态视频技术，支持文本指令控制与4K实时生成，性能超越StableAnimator和Runway商业模型。开发者可通过Git...

AI产品动态 # AI视频生成 # 人工智能技术 # 动作生成模型

8个月前

小米开源语音大模型Xiaomi-MiMo-Audio：7B级别性能全球领先，超越谷歌Gemini与OpenAI GPT-4o

小米发布全球领先的开源语音大模型Xiaomi-MiMo-Audio，在MMAU和Big Bench音频测试中超越谷歌Gemini与OpenAI GPT-4o。了解其亿小时训练数据、少样本学习能力及在智...

AI产品动态 # AI开源 # 人机交互 # 多模态AI

8个月前

OpenAI推出GPT-5 Thinking功能并研发儿童版，AI技术进入深度优化新阶段

OpenAI推出GPT-5 Thinking功能，响应速度提升40%，支持代码生成与实时调试。同步研发儿童版AI，布局教育细分市场。了解GPT-5技术优势、应用场景及行业竞争态势。

AI产品动态 # AI儿童版 # AI商业化 # ChatGPT

8个月前

OpenAI秘密测试GPT-Alpha智能体：基于GPT-5的多模态AI或将重塑行业

谷歌Mixboard AI工具公测：生成式AI重塑创意设计流程

阿里通义万相Wan2.5发布：实现音画同步AI视频生成，10秒1080P影视级输出

谷歌Gemini AI助手正式登陆Google TV，开启家庭娱乐智能新纪元

生数科技完成数亿元A轮融资，加速多模态大模型Vidu全球商业化布局

Luma AI发布全球首款多模态推理视频模型Ray3，支持4K HDR生成与智能修正

Mistral AI开源多模态推理模型Magistral Small 1.2：240亿参数支持视觉与多语言处理

阿里云通义万相开源Wan2.2-Animate动作生成模型，单图驱动视频生成实现技术突破

小米开源语音大模型Xiaomi-MiMo-Audio：7B级别性能全球领先，超越谷歌Gemini与OpenAI GPT-4o

OpenAI推出GPT-5 Thinking功能并研发儿童版，AI技术进入深度优化新阶段

热门AI工具

最新资讯