谷歌开源T5Gemma 2模型系列:多模态与长上下文处理的编码器-解码器新突破 谷歌开源T5Gemma 2模型系列,支持视觉-语言多模态输入与128K tokens长上下文处理,基于Gemma 3架构开发。涵盖270M、1B、4B参数版本,在数学推理、医疗文本生成等任务中性能显著... AI产品动态# Gemma3# T5Gemma2# 医疗AI 4个月前
阿里开源Z-Image图像生成模型:60亿参数实现商业级画质,技术门槛大幅降低 阿里巴巴开源Z-Image图像生成模型,采用60亿参数轻量架构,通过DMD解耦技术实现8步采样出图,支持复杂指令解析与双语文字渲染,显存占用仅16GB,兼容RTX 30系列显卡,推动AI绘图技术普惠化... AI产品动态# AI图像生成# DiT架构# Z-Image 5个月前
荣耀发布开源多模态感知大模型MagicGUI,引领手机AI交互新阶段 荣耀在WAIC2025重磅发布70亿参数开源多模态大模型MagicGUI,通过强化学习算法实现91.5%场景操控准确率,推动手机跨应用智能体协同交互,加速消费电子AI自动化普及。 AI产品动态# AI交互# MagicGUI# WAIC 9个月前
德国Black Forest Labs发布FLUX.2系列AI图像生成模型,硬件门槛降低40% 德国Black Forest Labs于2025年推出FLUX.2 AI图像生成模型,采用创新架构降低GPU显存需求40%,支持4MP输出与多图参考功能,助力消费级显卡运行专业图像任务,现已开源并实现... AI产品动态# AI图像生成# FLUX.2# NVIDIA 5个月前
英伟达开源Nemotron-Nano-9B-V2模型:90亿参数性能比肩主流,吞吐量达6.3倍 英伟达发布开源小型语言模型Nemotron-Nano-9B-V2,在GSM8K、MMLU-Pro等基准测试中性能媲美Qwen3-8B,支持128K上下文长度,单个A10 GPU可运行,现已在Huggi... AI产品动态# AI模型# GPU部署# Nemotron-Nano 8个月前
美团开源SOTA虚拟人视频生成模型LongCat-Video-Avatar,实现动作拟真与情感表达突破 美团最新开源虚拟人视频生成模型LongCat-Video-Avatar实现三大技术突破:支持文本/图片/视频多模式生成、5分钟长视频稳定生成、情感化动作表达。本文详解其解耦无条件引导、跨片段隐空间拼接... AI产品动态# AI# LongCat# SOTA技术 4个月前
通义大模型开源语音AI双升级:Fun-CosyVoice3实现3秒音色克隆,Fun-ASR嘈杂环境识别率达93% 通义大模型团队开源语音AI双模型Fun-CosyVoice3与Fun-ASR完成重大升级。Fun-CosyVoice3实现首包延迟降低50%、中英混说错误率下降56.4%,支持多语言方言与情感控制,其... AI产品动态# AI工具# Fun-ASR# Fun-CosyVoice3 4个月前
同济大学与东方医院联合开源Med-Go-32B医学基座模型,推动全球智慧医疗创新 同济大学与东方医院联合开源Med-Go-32B医学基座模型,具备多模态数据处理能力,支持影像识别和病历分析,推动全球医疗AI协同创新,赋能分级诊疗和罕见病研究。 AI新闻资讯# 东方医院# 医学AI# 医疗人工智能 5个月前
Mistral推出开源音频模型Voxtral:企业级语音处理新选择 欧洲AI公司Mistral推出开源音频模型Voxtral系列,支持8种语言转录与语义分析,提供低成本企业级语音处理解决方案,适用于医疗、工业等多个垂直领域。 AI产品动态# AI# Mistral# Voxtral 9个月前
谷歌开源端侧多模态大模型Gemma 3n发布,2GB内存即可流畅运行 谷歌发布开源端侧多模态大模型Gemma 3n,支持2GB内存设备流畅运行,采用创新MatFormer架构与PLE技术,大幅降低内存占用,推动生成式AI在边缘设备的普及。 AI产品动态# AI技术# Gemma3n# 多模态AI 10个月前