开源模型

谷歌开源T5Gemma 2模型系列：多模态与长上下文处理的编码器-解码器新突破

谷歌开源T5Gemma 2模型系列，支持视觉-语言多模态输入与128K tokens长上下文处理，基于Gemma 3架构开发。涵盖270M、1B、4B参数版本，在数学推理、医疗文本生成等任务中性能显著...

4个月前

阿里开源Z-Image图像生成模型：60亿参数实现商业级画质，技术门槛大幅降低

阿里巴巴开源Z-Image图像生成模型，采用60亿参数轻量架构，通过DMD解耦技术实现8步采样出图，支持复杂指令解析与双语文字渲染，显存占用仅16GB，兼容RTX 30系列显卡，推动AI绘图技术普惠化...

AI产品动态 # AI图像生成 # DiT架构 # Z-Image

5个月前

荣耀发布开源多模态感知大模型MagicGUI，引领手机AI交互新阶段

荣耀在WAIC2025重磅发布70亿参数开源多模态大模型MagicGUI，通过强化学习算法实现91.5%场景操控准确率，推动手机跨应用智能体协同交互，加速消费电子AI自动化普及。

AI产品动态 # AI交互 # MagicGUI # WAIC

9个月前

德国Black Forest Labs发布FLUX.2系列AI图像生成模型，硬件门槛降低40%

德国Black Forest Labs于2025年推出FLUX.2 AI图像生成模型，采用创新架构降低GPU显存需求40%，支持4MP输出与多图参考功能，助力消费级显卡运行专业图像任务，现已开源并实现...

AI产品动态 # AI图像生成 # FLUX.2 # NVIDIA

5个月前

英伟达开源Nemotron-Nano-9B-V2模型：90亿参数性能比肩主流，吞吐量达6.3倍

英伟达发布开源小型语言模型Nemotron-Nano-9B-V2，在GSM8K、MMLU-Pro等基准测试中性能媲美Qwen3-8B，支持128K上下文长度，单个A10 GPU可运行，现已在Huggi...

AI产品动态 # AI模型 # GPU部署 # Nemotron-Nano

8个月前

美团开源SOTA虚拟人视频生成模型LongCat-Video-Avatar，实现动作拟真与情感表达突破

美团最新开源虚拟人视频生成模型LongCat-Video-Avatar实现三大技术突破：支持文本/图片/视频多模式生成、5分钟长视频稳定生成、情感化动作表达。本文详解其解耦无条件引导、跨片段隐空间拼接...

AI产品动态 # AI # LongCat # SOTA技术

4个月前

通义大模型开源语音AI双升级：Fun-CosyVoice3实现3秒音色克隆，Fun-ASR嘈杂环境识别率达93%

通义大模型团队开源语音AI双模型Fun-CosyVoice3与Fun-ASR完成重大升级。Fun-CosyVoice3实现首包延迟降低50%、中英混说错误率下降56.4%，支持多语言方言与情感控制，其...

AI产品动态 # AI工具 # Fun-ASR # Fun-CosyVoice3

4个月前

同济大学与东方医院联合开源Med-Go-32B医学基座模型，推动全球智慧医疗创新

同济大学与东方医院联合开源Med-Go-32B医学基座模型，具备多模态数据处理能力，支持影像识别和病历分析，推动全球医疗AI协同创新，赋能分级诊疗和罕见病研究。

AI新闻资讯 # 东方医院 # 医学AI # 医疗人工智能

5个月前

Mistral推出开源音频模型Voxtral：企业级语音处理新选择

欧洲AI公司Mistral推出开源音频模型Voxtral系列，支持8种语言转录与语义分析，提供低成本企业级语音处理解决方案，适用于医疗、工业等多个垂直领域。

AI产品动态 # AI # Mistral # Voxtral

9个月前

谷歌开源端侧多模态大模型Gemma 3n发布，2GB内存即可流畅运行

谷歌发布开源端侧多模态大模型Gemma 3n，支持2GB内存设备流畅运行，采用创新MatFormer架构与PLE技术，大幅降低内存占用，推动生成式AI在边缘设备的普及。

AI产品动态 # AI技术 # Gemma3n # 多模态AI

10个月前

谷歌开源T5Gemma 2模型系列：多模态与长上下文处理的编码器-解码器新突破

阿里开源Z-Image图像生成模型：60亿参数实现商业级画质，技术门槛大幅降低

荣耀发布开源多模态感知大模型MagicGUI，引领手机AI交互新阶段

德国Black Forest Labs发布FLUX.2系列AI图像生成模型，硬件门槛降低40%

英伟达开源Nemotron-Nano-9B-V2模型：90亿参数性能比肩主流，吞吐量达6.3倍

美团开源SOTA虚拟人视频生成模型LongCat-Video-Avatar，实现动作拟真与情感表达突破

通义大模型开源语音AI双升级：Fun-CosyVoice3实现3秒音色克隆，Fun-ASR嘈杂环境识别率达93%

同济大学与东方医院联合开源Med-Go-32B医学基座模型，推动全球智慧医疗创新

Mistral推出开源音频模型Voxtral：企业级语音处理新选择

谷歌开源端侧多模态大模型Gemma 3n发布，2GB内存即可流畅运行

热门AI工具

最新资讯