多模态AI

字节跳动推出AI办公应用AnyGen：语音驱动，重构办公信息整合全链路

字节跳动海外推出AI办公应用AnyGen，以语音驱动为核心，实现碎片信息到可交付文档的全链路重构。本文从SEO角度解读其功能亮点、技术融合、市场机遇及对AI办公行业竞争格局的影响，为关注AI生产力工具...

5个月前

Meta发布16亿参数VL-JEPA模型：非生成式视觉-语言模型实现实时推理突破

Meta与港科大等团队发布的VL-JEPA模型以16亿参数实现媲美720亿参数模型的性能，通过非生成式连续嵌入预测技术突破实时视觉-语言理解瓶颈，降低80%计算成本，为可穿戴设备与机器人提供高效多模态...

AI新闻资讯 # AI模型 # Meta # VL-JEPA

5个月前

马斯克圣诞礼物引爆争议：X平台Grok AI图片编辑功能上线，创作者集体抗议

本文深度解读马斯克在X平台推出的Grok AI图片编辑功能：技术实现包括自然语言修图、图转视频等创新，同时分析其引发的版权失控、创作者抵制及行业影响。探讨AI技术便利与创作权益的冲突，展望社交媒体生态...

AI产品动态 # AI图片编辑 # AI新闻 # Grok模型

5个月前

阶跃星辰开源图像生成模型NextStep-1.1：150亿参数自回归模型实现视觉伪影系统性优化

阶跃星辰于2025年12月开源NextStep-1.1图像生成模型，该150亿参数自回归模型通过基于流的强化学习技术，系统性解决视觉伪影问题，提升细节保真度与训练稳定性，现已托管于Hugging Fa...

AI产品动态 # AI开源 # NextStep-1.1 # 人工智能技术

5个月前

全国首个规划资源领域基础大模型“云宇星空（专业版）”在沪发布，开启城市空间治理智能化新纪元

上海市规划资源局与商汤科技联合推出全国首个规划资源领域基础大模型“云宇星空（专业版）”，6000亿参数多模态技术覆盖十大核心场景，实现自然语言调图、智能统计分析，助力城市空间治理进入科学化、精细化新阶...

AI产品动态 # AI大模型 # 云宇星空 # 商汤科技

5个月前

谷歌开源T5Gemma 2模型系列：多模态与长上下文处理的编码器-解码器新突破

谷歌开源T5Gemma 2模型系列，支持视觉-语言多模态输入与128K tokens长上下文处理，基于Gemma 3架构开发。涵盖270M、1B、4B参数版本，在数学推理、医疗文本生成等任务中性能显著...

AI产品动态 # Gemma3 # T5Gemma2 # 医疗AI

5个月前

苹果发布UniGen 1.5多模态AI模型：统一架构实现图像理解、生成与编辑一体化

苹果研究团队推出多模态AI模型UniGen 1.5，实现图像理解、生成与编辑一体化集成，通过创新编辑指令对齐和统一奖励系统提升任务准确度，在多项测试中表现优异，为AI视觉领域带来重要技术突破与应用前景...

AI产品动态 # AI模型突破 # UniGen1.5 # 人工智能技术

5个月前

谷歌发布AI助手CC：基于Gemini大模型，整合Gmail、日历打造个性化工作流

谷歌实验室推出基于Gemini大模型的AI助手CC，深度融合Gmail、日历等核心服务，提供自动化晨间简报、邮件预起草等功能。目前面向美加用户开放早期访问，加速AI个人助手赛道竞争。

AI产品动态 # AI助手 # CC助手 # Gemini大模型

5个月前

Meta开源SAM Audio音频分离模型：多模态提示技术重塑音频编辑行业

Meta最新开源的SAM Audio多模态音频分离模型，通过文本、视觉和时间段提示实现精准声音分离，适用于音乐制作、播客降噪等场景。本文解析其PE-AV核心技术、应用优势及开源资源，探讨AI音频处理的...

AI产品动态 # AI工具 # Meta # SAMAudio

5个月前

美的医疗发布国产医学影像多模态智能诊断大模型，实现基层医疗AI关键技术突破

美的医疗正式发布国产自主知识产权的医学影像多模态智能诊断大模型，实现肺结核、肺炎等胸部疾病自动检测与报告生成。该模型采用轻量化设备端与高精度云端双架构，适配不同医疗机构需求，已进入临床验证，计划202...

AI产品动态 # DR影像 # 人工智能 # 医学影像

5个月前

字节跳动推出AI办公应用AnyGen：语音驱动，重构办公信息整合全链路

Meta发布16亿参数VL-JEPA模型：非生成式视觉-语言模型实现实时推理突破

马斯克圣诞礼物引爆争议：X平台Grok AI图片编辑功能上线，创作者集体抗议

阶跃星辰开源图像生成模型NextStep-1.1：150亿参数自回归模型实现视觉伪影系统性优化

全国首个规划资源领域基础大模型“云宇星空（专业版）”在沪发布，开启城市空间治理智能化新纪元

谷歌开源T5Gemma 2模型系列：多模态与长上下文处理的编码器-解码器新突破

苹果发布UniGen 1.5多模态AI模型：统一架构实现图像理解、生成与编辑一体化

谷歌发布AI助手CC：基于Gemini大模型，整合Gmail、日历打造个性化工作流

Meta开源SAM Audio音频分离模型：多模态提示技术重塑音频编辑行业

美的医疗发布国产医学影像多模态智能诊断大模型，实现基层医疗AI关键技术突破

热门AI工具

最新资讯