多模态AI

谷歌发布Titans与MIRAS大模型架构：突破Transformer限制，推动AGI进程

谷歌发布全新大模型架构Titans和MIRAS，Titans支持超200万token上下文，突破Transformer记忆瓶颈；MIRAS解决多模态对齐问题。两大架构已应用于实际平台，预计2026年商...

6个月前

谷歌开源端侧多模态大模型Gemma 3n发布，2GB内存即可流畅运行

谷歌发布开源端侧多模态大模型Gemma 3n，支持2GB内存设备流畅运行，采用创新MatFormer架构与PLE技术，大幅降低内存占用，推动生成式AI在边缘设备的普及。

AI产品动态 # AI技术 # Gemma3n # 多模态AI

11个月前

英伟达支持的Luma AI完成9亿美元C轮融资，估值超40亿美元并启动欧洲扩张

英伟达支持的Luma AI完成9亿美元C轮融资，估值超40亿美元，启动以伦敦为核心的欧洲战略扩张。本文解析其融资细节、伦敦研发中心计划，以及在生成式视频领域与谷歌、Meta的竞争格局，探讨全球AI区域...

AI新闻资讯 # AI融资 # LumaAI # 世界模型

6个月前

OpenAI Evals重大更新：原生音频评估功能上线，语音模型测试效率提升40%

OpenAI Evals推出原生音频评估功能，支持直接上传音频文件进行端到端测试，消除转录失真，提升40%评估可信度。适用于语音助手、语音识别及AI语音生成的质量监控，加速语音AI产品迭代。

AI产品动态 # AI测试工具 # OpenAI # 多模态AI

8个月前

百度文心大模型X1 1.1版本重磅升级：智能体与多模态能力突破，推理成本降17%

百度文心大模型X1 1.1版本实现智能体深度任务规划、多模态能力提升及工具调用优化，在金融、医疗、制造领域表现卓越，推理成本降低17%，适用于企业API调用与私有化部署。

AI产品动态 # AI技术 # 人工智能 # 企业AI应用

9个月前

谷歌Gemini 3 Pro将于2025年11月推出：百万token上下文窗口重塑AI处理能力

谷歌下一代旗舰AI模型Gemini 3 Pro确认2025年11月发布，具备革命性100万token上下文处理能力，可完整分析300页书籍内容。多模态升级与Agent技术结合，将重塑企业AI服务竞争格...

AI产品动态 # AI模型 # Gemini3Pro # GPT-5竞争

7个月前

阿里通义万相Wan2.5发布：实现音画同步AI视频生成，10秒1080P影视级输出

阿里巴巴正式发布通义万相Wan2.5 Preview模型，突破多模态AI生成技术，实现音画同步的10秒1080P视频生成能力，支持文生视频、图生视频等核心功能，大幅降低影视内容制作成本。

AI产品动态 # AI技术 # AI视频生成 # 云栖大会

8个月前

谷歌Gemini 3正式集成全球搜索，AI Pro用户优先体验多模态智能搜索

2025年12月，谷歌正式将Gemini 3生成式AI模型部署至全球搜索引擎，支持文本、图像、音频多模态处理，响应速度提升40%。本文详解其技术架构、订阅政策及对搜索交互的革命性影响。

AI产品动态 # AI搜索 # Gemini3 # NanoBananaPro

6个月前

MiniMax Agent全新升级，新增智能图像搜索等四大功能提AI协作效率

MiniMax Agent是MiniMax官方推出的AI生产力工具，主要说明该工具通过新增智能图像搜索、稳定的图像生成、多语言支持及多样化文档导出四大核心功能，进一步提升多模态能力与长任务处理效率。

AI产品动态 # AI工具 # MiniMax # 图像生成技术

11个月前

字节跳动发布Vidi2多模态大模型：120亿参数突破时空定位，重塑视频创作生态

字节跳动2025年发布Vidi2多模态大模型，具备120亿参数与突破性时空定位技术，实现长视频智能解析、自动化编辑与对象追踪，在VUE-TR-V2基准测试中性能领先。模型已集成至TikTok，提供Sm...

AI产品动态 # AI大模型 # TikTok # Vidi2

6个月前

谷歌发布Titans与MIRAS大模型架构：突破Transformer限制，推动AGI进程

谷歌开源端侧多模态大模型Gemma 3n发布，2GB内存即可流畅运行

英伟达支持的Luma AI完成9亿美元C轮融资，估值超40亿美元并启动欧洲扩张

OpenAI Evals重大更新：原生音频评估功能上线，语音模型测试效率提升40%

百度文心大模型X1 1.1版本重磅升级：智能体与多模态能力突破，推理成本降17%

谷歌Gemini 3 Pro将于2025年11月推出：百万token上下文窗口重塑AI处理能力

阿里通义万相Wan2.5发布：实现音画同步AI视频生成，10秒1080P影视级输出

谷歌Gemini 3正式集成全球搜索，AI Pro用户优先体验多模态智能搜索

MiniMax Agent全新升级，新增智能图像搜索等四大功能提AI协作效率

字节跳动发布Vidi2多模态大模型：120亿参数突破时空定位，重塑视频创作生态

热门AI工具

最新资讯