多模态AI

蚂蚁集团推出AGI多模态应用“灵光”，开启视觉交互新纪元

蚂蚁集团发布AGI多模态应用“灵光”，核心功能AGI相机实现认知级场景理解与生成，依托支付宝生态优势布局多模态AI赛道，开启视觉交互技术新篇章。

7个月前

谷歌Gemini CLI工具1.2.0版本发布：新增音视频支持但功能尚未完全开放

深度解析谷歌Gemini CLI 1.2.0版本更新内容，包括技术栈升级、新增功能及使用限制。了解这款基于Gemini 2.5 Pro的多模态AI命令行工具如何提升开发效率，以及其未来的音视频支持计划...

AI产品动态 # AI工具 # GeminiCLI # 命令行工具

11个月前

DeepFuture发布全球首个GPT-5视频生成智能体Video Ocean，颠覆传统视频制作模式

DeepFuture发布全球首个接入GPT-5的视频生成智能体Video Ocean，支持通过自然语言生成1-5分钟高质量视频，完播率提升3倍，适用于新闻、科普、商业演示等多场景，现已开放企业版订阅服...

AI产品动态 # AIGC # DeepFuture # GPT-5

9个月前

Google NotebookLM视频功能重磅升级：集成Gemini Nano Banana技术实现文档自动转视频

Google NotebookLM集成Gemini Nano Banana技术实现文档自动转视频功能升级，提供水彩、纸艺等6种视觉风格和Brief/Explainer双格式，面向教育课件、企业报告等场...

AI产品动态 # AI技术升级 # AI视频生成 # GeminiNanoBanana

7个月前

腾讯混元图像3.0登顶全球文生图榜首，元宝App可一键生成专业级图像

腾讯混元图像3.0登顶全球文生图榜单第一，正式登陆元宝App。这款800亿参数开源模型支持2048×2048超高分辨率，可实现表情包、人像写真等专业级图像生成，已助力电商、游戏行业提升80%开发效率。

AI产品动态 # AI商业化 # AI图像生成 # 元宝App

8个月前

阿里云通义万相开源Wan2.2-Animate动作生成模型，单图驱动视频生成实现技术突破

阿里云通义万相团队开源Wan2.2-Animate动作生成模型，突破单图生成动态视频技术，支持文本指令控制与4K实时生成，性能超越StableAnimator和Runway商业模型。开发者可通过Git...

AI产品动态 # AI视频生成 # 人工智能技术 # 动作生成模型

8个月前

通义千问重磅开源图像生成模型Qwen-Image，即将推出AI图片编辑功能

深度解析通义千问最新开源图像生成模型Qwen-Image的技术突破与商业价值，涵盖20B参数架构性能、即将发布的AI图片编辑功能及在电商设计等领域的应用前景。

AI产品动态 # AI图像生成 # Qwen-Image # 人工智能

9个月前

字节跳动推出AI办公应用AnyGen：语音驱动，重构办公信息整合全链路

字节跳动海外推出AI办公应用AnyGen，以语音驱动为核心，实现碎片信息到可交付文档的全链路重构。本文从SEO角度解读其功能亮点、技术融合、市场机遇及对AI办公行业竞争格局的影响，为关注AI生产力工具...

AI产品动态 # AI办公应用 # AI工具 # AnyGen

5个月前

Looki完成千万美元融资，全球首款多模态AI穿戴设备L1将于2025年量产交付

Looki公司完成超千万美元融资，推出全球首款多模态AI穿戴设备L1。199美元轻量化挂坠支持实时环境感知、自动生活记录与Vlog生成，突破传统AI交互模式，适用于健身追踪、亲子沟通等场景，计划202...

AI产品动态 # AI穿戴设备 # Looki # Pre-A轮融资

9个月前

昆仑万维SkyWork AI技术发布周：六款多模态AI模型震撼亮相，覆盖视频生成至音乐创作

深度解读昆仑万维2025年SkyWork AI技术发布周：六款覆盖视频、3D、音乐等领域的多模态AI模型技术细节、市场反应及商业化前景分析。

AI新闻资讯 # 3D建模 # AI技术 # 商业化落地

9个月前

蚂蚁集团推出AGI多模态应用“灵光”，开启视觉交互新纪元

谷歌Gemini CLI工具1.2.0版本发布：新增音视频支持但功能尚未完全开放

DeepFuture发布全球首个GPT-5视频生成智能体Video Ocean，颠覆传统视频制作模式

Google NotebookLM视频功能重磅升级：集成Gemini Nano Banana技术实现文档自动转视频

腾讯混元图像3.0登顶全球文生图榜首，元宝App可一键生成专业级图像

阿里云通义万相开源Wan2.2-Animate动作生成模型，单图驱动视频生成实现技术突破

通义千问重磅开源图像生成模型Qwen-Image，即将推出AI图片编辑功能

字节跳动推出AI办公应用AnyGen：语音驱动，重构办公信息整合全链路

Looki完成千万美元融资，全球首款多模态AI穿戴设备L1将于2025年量产交付

昆仑万维SkyWork AI技术发布周：六款多模态AI模型震撼亮相，覆盖视频生成至音乐创作

热门AI工具

最新资讯