AI技术突破

腾讯混元世界模型1.5正式开源：国内首个实时交互式3D世界建模技术突破

腾讯混元世界模型1.5正式开源，实现文本或图片输入实时生成可自由探索的3D交互场景，具备24FPS高清视频流、几何一致性及多视角交互能力，为AI内容生成与具身智能研究提供全链路技术基础设施。

5个月前

谷歌发布Gemini Nano Banana 2 Flash轻量AI模型，图像生成成本降低30%

谷歌新一代轻量级AI模型Gemini Nano Banana 2 Flash正式推出，在图像生成与编辑领域实现显著突破，支持1M token上下文处理，运营成本降低30%，响应速度提升1.7倍。本文深...

AI产品动态 # AI图像生成 # AI成本优化 # AI技术突破

6个月前

腾讯混元OCR开源模型发布：1B参数实现多项突破，OmniDocBench测评超越谷歌Gemini

腾讯发布开源OCR模型HunyuanOCR，以1B轻量化参数在OmniDocBench测评获94.1分超越谷歌Gemini，支持14种语种翻译并获ICDAR2025冠军，已在GitHub开源。

AI产品动态 # AI技术突破 # GitHub开源 # 多模态AI

6个月前

Anthropic双Agent架构突破：实现90%性能提升与无限对话能力

深度解析Anthropic最新双Agent架构技术：通过协调者-工作者设计实现90%性能提升，创新记忆管理机制支持无限对话，在多场景任务中展现卓越适配能力，推动AI Agent技术新发展。

AI产品动态 # AIAgent # AI技术突破 # Anthropic

6个月前

清华与智谱AI发布Glyph框架：实现3-4倍文本压缩，突破大模型长上下文处理瓶颈

清华大学与智谱AI联合研发的Glyph框架实现突破性进展，通过视觉-文本压缩机制达到3-4倍文本压缩率，128K上下文窗口VLM可处理百万级token内容，显著提升内存效率与推理速度，为金融法律等领域...

AI产品动态 # AI技术突破 # Glyph框架 # 文本压缩

7个月前

Genspark推出超级代理及智能体商店：MoA架构降低AI代理创建门槛

Genspark推出基于MoA架构的超级代理平台和智能体商店，显著降低AI代理创建门槛。平台集成多款头部AI模型，支持行程规划、视频生成等场景，45天实现3600万美元年度收入，成为AI代理领域重要技...

AI产品动态 # AI代理商店 # AI技术突破 # AI智能体

7个月前

字节跳动即梦AI 4.0发布：多模态图像生成技术实现三大功能整合

字节跳动即梦AI 4.0版本实现多模态技术突破，整合文生图/编辑/组图三大功能，支持2K图像1.8秒生成与4K输出，精准响应自然语言指令，显著降低AI图像创作门槛。

AI产品动态 # AI技术突破 # 人工智能 # 即梦AI

9个月前

微软发布自研AI模型MAI-Voice-1与MAI-1-preview，构建独立技术体系

微软2025年发布自研语音模型MAI-Voice-1与大语言模型MAI-1-preview，实现40种语体风格与实时音频生成，采用MoE架构降低对OpenAI依赖，推动AI技术自主化与行业格局变革。

AI产品动态 # AI技术突破 # OpenAI竞争 # 大语言模型

9个月前

字节跳动发布OmniHuman-1.5视频生成模型：语音驱动多角色动画技术突破

深度解析字节跳动OmniHuman-1.5视频生成模型的技术特性：支持语音驱动、多角色互动与情感感知，突破分钟级动画生成限制，适用于影视、虚拟主播等商业化场景，推动AI内容创作技术发展。

AI产品动态 # AI技术突破 # OmniHuman # 人工智能

9个月前

爱诗科技发布PixVerse V5大模型：AI视频生成进入秒级响应时代

爱诗科技发布PixVerse V5大模型，实现AI视频生成秒级响应，支持高清短片快速生成。新模型提升视觉质量与创作效率，降低创作门槛，全球用户超1亿，加速AI视频在商业与泛娱乐领域应用。

AI产品动态 # Agent创作助手 # AI技术突破 # AI视频生成

9个月前

腾讯混元世界模型1.5正式开源：国内首个实时交互式3D世界建模技术突破

谷歌发布Gemini Nano Banana 2 Flash轻量AI模型，图像生成成本降低30%

腾讯混元OCR开源模型发布：1B参数实现多项突破，OmniDocBench测评超越谷歌Gemini

Anthropic双Agent架构突破：实现90%性能提升与无限对话能力

清华与智谱AI发布Glyph框架：实现3-4倍文本压缩，突破大模型长上下文处理瓶颈

Genspark推出超级代理及智能体商店：MoA架构降低AI代理创建门槛

字节跳动即梦AI 4.0发布：多模态图像生成技术实现三大功能整合

微软发布自研AI模型MAI-Voice-1与MAI-1-preview，构建独立技术体系

字节跳动发布OmniHuman-1.5视频生成模型：语音驱动多角色动画技术突破

爱诗科技发布PixVerse V5大模型：AI视频生成进入秒级响应时代

热门AI工具

最新资讯