OpenAI即将发布GPT-5:AI领域迎来重大突破 OpenAI即将发布革命性AI模型GPT-5,具备200万token超长上下文窗口和统一多模态处理能力。本文深度解析GPT-5的技术突破、分层发布策略及其对AI行业的重大影响。 AI产品动态# AGI# GPT-5# OpenAI 10个月前
谷歌开源T5Gemma 2模型系列:多模态与长上下文处理的编码器-解码器新突破 谷歌开源T5Gemma 2模型系列,支持视觉-语言多模态输入与128K tokens长上下文处理,基于Gemma 3架构开发。涵盖270M、1B、4B参数版本,在数学推理、医疗文本生成等任务中性能显著... AI产品动态# Gemma3# T5Gemma2# 医疗AI 5个月前
阿里Qwen3-Omni-Flash-2025-12-01发布:原生全模态大模型实现音视频实时流式输出,支持个性化AI人设定制 阿里Qwen团队最新发布Qwen3-Omni-Flash-2025-12-01全模态大模型,实现文本、图像、音频和视频无缝输入与实时流式输出,技术升级包括原生统一编码器架构、音视频帧对齐及韵律预测网络... AI产品动态# AI交互# 人工智能# 多模态AI 5个月前
谷歌Gemini推出引导式学习功能,AI辅导教师助力STEM学习效率提升23% 深度解读谷歌Gemini最新引导式学习功能:基于100万token多模态推理的AI教学系统,实现数学测试准确率86.7%并支持跨语言扩展,重塑在线教育技术标准。 AI产品动态# AI教育# STEM学习# 人工智能 10个月前
DeepSeek-OCR开源:30亿参数OCR模型实现长文本处理突破,97%识别精度引领多模态AI新范式 DeepSeek团队开源30亿参数OCR模型DeepSeek-OCR,采用创新光学压缩技术实现97%识别精度。该模型在长文本处理、多分辨率输入方面表现卓越,为金融、医疗、出版行业提供高效数字化解决方案... AI产品动态# AI开源模型# DeepSeek-OCR# OCR技术 7个月前
Higgsfield推出Draw-to-Video功能:用箭头绘制即可生成电影级AI视频 深度解析Higgsfield革命性Draw-to-Video功能:无需复杂文本提示,通过图形标记和自然语言指令即可生成专业级动态视频。了解其自主研发的DoP I2V-01模型如何整合70+电影运镜模板... AI产品动态# AI视频生成# Draw-to-Video# Higgsfield 9个月前
阶跃星辰开源图像生成模型NextStep-1.1:150亿参数自回归模型实现视觉伪影系统性优化 阶跃星辰于2025年12月开源NextStep-1.1图像生成模型,该150亿参数自回归模型通过基于流的强化学习技术,系统性解决视觉伪影问题,提升细节保真度与训练稳定性,现已托管于Hugging Fa... AI产品动态# AI开源# NextStep-1.1# 人工智能技术 5个月前
谷歌Gemini 3正式发布:全面超越GPT-5.1,AI竞赛进入”执行力”新时代 深度解析谷歌Gemini 3大模型:在LMArena以1501分超越GPT-5.1,GPQA Diamond测试达91.9%,配备生成式界面和Vibe Coding技术,重新定义AI执行力标准。了解G... AI产品动态# AI大模型# GPT-5.1# 人工智能竞赛 6个月前
美团发布业界首个中文全模态评测基准UNO-Bench,揭示全模态大模型”组合定律” 美团发布业界首个中文全模态评测基准UNO-Bench,包含1250条全模态样本和2480条单模态样本,覆盖44类任务及5种模态组合。该基准首次验证全模态大模型"组合定律",为AI行业提供科学评估标准... AI产品动态# AI大模型# UNO-Bench# 人工智能基准 7个月前
国内首个对话式音乐创作Agent Tunee公测:用自然语言生成完整音乐作品 趣丸科技正式推出国内首个对话式音乐创作Agent Tunee,支持自然语言交互生成完整音乐作品,包含AI作曲、编曲、人声合成及MV制作功能,公测期间免费使用。 AI产品动态# AI音乐创作# Tunee# 人工智能 8个月前