多模态AI

OpenAI即将发布GPT-5：AI领域迎来重大突破

OpenAI即将发布革命性AI模型GPT-5，具备200万token超长上下文窗口和统一多模态处理能力。本文深度解析GPT-5的技术突破、分层发布策略及其对AI行业的重大影响。

10个月前

谷歌开源T5Gemma 2模型系列：多模态与长上下文处理的编码器-解码器新突破

谷歌开源T5Gemma 2模型系列，支持视觉-语言多模态输入与128K tokens长上下文处理，基于Gemma 3架构开发。涵盖270M、1B、4B参数版本，在数学推理、医疗文本生成等任务中性能显著...

AI产品动态 # Gemma3 # T5Gemma2 # 医疗AI

5个月前

阿里Qwen3-Omni-Flash-2025-12-01发布：原生全模态大模型实现音视频实时流式输出，支持个性化AI人设定制

阿里Qwen团队最新发布Qwen3-Omni-Flash-2025-12-01全模态大模型，实现文本、图像、音频和视频无缝输入与实时流式输出，技术升级包括原生统一编码器架构、音视频帧对齐及韵律预测网络...

AI产品动态 # AI交互 # 人工智能 # 多模态AI

5个月前

谷歌Gemini推出引导式学习功能，AI辅导教师助力STEM学习效率提升23%

深度解读谷歌Gemini最新引导式学习功能：基于100万token多模态推理的AI教学系统，实现数学测试准确率86.7%并支持跨语言扩展，重塑在线教育技术标准。

AI产品动态 # AI教育 # STEM学习 # 人工智能

10个月前

DeepSeek-OCR开源：30亿参数OCR模型实现长文本处理突破，97%识别精度引领多模态AI新范式

DeepSeek团队开源30亿参数OCR模型DeepSeek-OCR，采用创新光学压缩技术实现97%识别精度。该模型在长文本处理、多分辨率输入方面表现卓越，为金融、医疗、出版行业提供高效数字化解决方案...

AI产品动态 # AI开源模型 # DeepSeek-OCR # OCR技术

7个月前

Higgsfield推出Draw-to-Video功能：用箭头绘制即可生成电影级AI视频

深度解析Higgsfield革命性Draw-to-Video功能：无需复杂文本提示，通过图形标记和自然语言指令即可生成专业级动态视频。了解其自主研发的DoP I2V-01模型如何整合70+电影运镜模板...

AI产品动态 # AI视频生成 # Draw-to-Video # Higgsfield

9个月前

阶跃星辰开源图像生成模型NextStep-1.1：150亿参数自回归模型实现视觉伪影系统性优化

阶跃星辰于2025年12月开源NextStep-1.1图像生成模型，该150亿参数自回归模型通过基于流的强化学习技术，系统性解决视觉伪影问题，提升细节保真度与训练稳定性，现已托管于Hugging Fa...

AI产品动态 # AI开源 # NextStep-1.1 # 人工智能技术

5个月前

谷歌Gemini 3正式发布：全面超越GPT-5.1，AI竞赛进入”执行力”新时代

深度解析谷歌Gemini 3大模型：在LMArena以1501分超越GPT-5.1，GPQA Diamond测试达91.9%，配备生成式界面和Vibe Coding技术，重新定义AI执行力标准。了解G...

AI产品动态 # AI大模型 # GPT-5.1 # 人工智能竞赛

6个月前

美团发布业界首个中文全模态评测基准UNO-Bench，揭示全模态大模型”组合定律”

美团发布业界首个中文全模态评测基准UNO-Bench，包含1250条全模态样本和2480条单模态样本，覆盖44类任务及5种模态组合。该基准首次验证全模态大模型"组合定律"，为AI行业提供科学评估标准...

AI产品动态 # AI大模型 # UNO-Bench # 人工智能基准

7个月前

国内首个对话式音乐创作Agent Tunee公测：用自然语言生成完整音乐作品

趣丸科技正式推出国内首个对话式音乐创作Agent Tunee，支持自然语言交互生成完整音乐作品，包含AI作曲、编曲、人声合成及MV制作功能，公测期间免费使用。

AI产品动态 # AI音乐创作 # Tunee # 人工智能

8个月前

OpenAI即将发布GPT-5：AI领域迎来重大突破

谷歌开源T5Gemma 2模型系列：多模态与长上下文处理的编码器-解码器新突破

阿里Qwen3-Omni-Flash-2025-12-01发布：原生全模态大模型实现音视频实时流式输出，支持个性化AI人设定制

谷歌Gemini推出引导式学习功能，AI辅导教师助力STEM学习效率提升23%

DeepSeek-OCR开源：30亿参数OCR模型实现长文本处理突破，97%识别精度引领多模态AI新范式

Higgsfield推出Draw-to-Video功能：用箭头绘制即可生成电影级AI视频

阶跃星辰开源图像生成模型NextStep-1.1：150亿参数自回归模型实现视觉伪影系统性优化

谷歌Gemini 3正式发布：全面超越GPT-5.1，AI竞赛进入”执行力”新时代

美团发布业界首个中文全模态评测基准UNO-Bench，揭示全模态大模型”组合定律”

国内首个对话式音乐创作Agent Tunee公测：用自然语言生成完整音乐作品

热门AI工具

最新资讯