AI视野：每日AI资讯速递 | 2025-12-18

1. OpenAI宣布ChatGPT深度集成Apple Music，自然语言指令实现个性化音乐推荐

OpenAI于2025年12月17日宣布，Apple Music即将与ChatGPT实现深度集成，用户可通过自然语言指令创建个性化歌单并控制播放，标志着ChatGPT在娱乐场景服务能力的进一步拓展。查看详情>>

2. 谷歌发布Gemini 3 Flash模型：成本仅Pro版1/4，速度提升3倍，成AI市场新标杆

谷歌正式推出Gemini 3 Flash模型，该模型在保持接近旗舰款推理能力的同时，运行速度达到前代三倍，成本仅为Pro版本四分之一，并已在Gemini应用和谷歌搜索中默认启用，进一步加剧与OpenAI的行业竞争。查看详情>>

3. 腾讯混元世界模型1.5正式开源：国内首个实时交互式3D世界建模技术突破

腾讯混元世界模型1.5于2025年12月17日发布并开源，支持文本或图片输入实时生成可探索的3D交互场景，采用WorldPlay自回归扩散架构，实现24FPS高清视频流生成、分钟级3D几何一致性与多视角交互，为游戏开发、影视预演等领域提供全链路解决方案。查看详情>>

4. 小米发布开源大模型MiMo-V2-Flash：3090亿参数、代码能力全球Top2，加速AGI生态布局

2025年12月17日，小米在合作伙伴大会上正式推出开源大模型MiMo-V2-Flash。该模型由新加盟的罗福莉团队主导，采用混合专家架构，总参数量3090亿，在代码基准测试中超越所有开源模型，综合性能对标DeepSeek-V3.2。其通过创新技术实现推理速度提升2倍以上，定价具成本优势，将支撑小米“人车家全生态”战略。查看详情>>

5. 微信输入法iOS版3.0重磅更新：全面重构大模型，支持15种方言语音输入

微信输入法iOS版3.0正式发布，以语音输入为核心升级方向，通过重构底层大模型技术，显著提升识别准确率与响应速度。新版本支持15种方言语音输入，取消语音时长限制，新增离线语音功能，并延续严格的隐私保护机制。此次更新标志着微信输入法向智能交互平台转型迈出关键一步。查看详情>>

6. 阶跃星辰发布Step-GUI系列AI Agent，开启图形界面智能体规模化应用时代

阶跃星辰正式发布全新AI Agent系列Step-GUI，包含云端模型、端侧开源模型及专用MCP协议，实现端云协同。该技术已支持淘宝、抖音等200余个应用，10分钟即可完成手机部署，并与荣耀、OPPO等超60%国产手机厂商合作，加速终端设备向智能伙伴转型。查看详情>>

7. 盛数科技Vidu视频大模型全球内测：一键生成产品广告成片，AI视频商业化加速

盛数科技旗下视频大模型Vidu正式开放全球内测，其核心功能“一键生成可直接投放的产品广告成片”引发行业关注。基于Vidu Q2模型升级，该功能整合多模态理解、主体一致性控制与高清音画同步技术，支持快速生成1080P广告短片，平均耗时低于3分钟，已在电商、美妆等领域实现成本降低70%的应用突破，推动AI视频从技术探索迈向规模化商业落地。查看详情>>

8. 百度健康发布行业首款可控AI创作平台Dr.Flow，医疗内容创作效率提升60倍

百度健康在AI DAY活动中推出面向健康从业者的AI创作平台Dr.Flow，通过全流程自动化将单条视频制作时间从10小时压缩至10分钟，内置合规医学素材库与一键分发功能，助力医疗健康内容高效生产与传播。查看详情>>

9. 爱诗科技与阿里云达成战略合作，PixVerse视频大模型获全栈AI支持

12月17日，爱诗科技与阿里云签署全面合作协议，阿里云成为其全球云合作伙伴，为PixVerse视频生成大模型提供基础设施与大模型服务支持，覆盖美西、美东等区域，加速AI视频服务国际化布局。查看详情>>

10. 美的医疗发布国产医学影像多模态智能诊断大模型，实现基层医疗AI关键技术突破

美的医疗近日推出具备国产自主知识产权的医学影像多模态智能诊断大模型，该模型由万里云团队开发，可一次性自动检测肺结核、肺炎等胸部疾病并生成结构化报告，提升基层阅片效率。其创新“双量级”架构支持设备端与云端灵活部署，已进入临床验证阶段，计划2026年拓展至骨科领域，未来覆盖CT、MRI等多模态场景。查看详情>>

11. Adobe Firefly重大更新：AI视频编辑进入自然语言指令时代

Adobe Firefly推出全新视频编辑器，支持通过文本指令精准修改视频内容，并集成多款第三方AI模型，实现从生成工具到全流程创作平台的转型。查看详情>>

12. OpenAI发布FrontierScience基准测试：GPT-5.2博士级科学推理正确率仅25%，揭示AI独立科研能力短板

OpenAI正式推出FrontierScience基准测试，通过物理、化学、生物三大学科700余道博士级难题评估AI科学推理能力。测试显示GPT-5.2在竞赛赛道正确率77%，但在开放式研究赛道仅获25%得分，暴露AI在真实科研场景中的显著局限。查看详情>>

13. Meta开源SAM Audio音频分离模型：多模态提示技术重塑音频编辑行业

Meta公司正式开源多模态音频分离模型SAM Audio，该模型通过文本、视觉和时间段提示，可精准分离复杂音频中的目标声音，大幅降低专业音频处理门槛，已集成至Segment Anything Playground平台供公众体验。查看详情>>

14. OpenAI撤回ChatGPT模型路由器功能，免费用户默认启用GPT-5.2 Instant以提升响应速度

OpenAI宣布调整ChatGPT产品策略，取消面向免费及低阶付费用户的模型路由器功能，转而默认采用响应更快的GPT-5.2 Instant模型。此举基于用户反馈，旨在优化交互体验，应对市场竞争与用户增长压力。查看详情>>

15. 谷歌Gemini新增Super Gems功能，整合Opal工具，AI应用开发门槛大幅降低

谷歌宣布Gemini平台推出Super Gems高级功能模块，深度整合Opal可视化编程工具，允许用户通过自然语言创建定制化AI助手。该更新已向美国用户开放，旨在推动AI应用创作平民化，未来将逐步全球推广。查看详情>>

16. OpenAI学院正式成立：专为新闻机构打造AI培训中心，推动行业智能化转型

OpenAI宣布推出面向新闻行业的AI学习中心——OpenAI学院，提供定制化培训课程，涵盖GPT-4 Turbo、DALL·E 3等前沿技术实践，助力新闻从业者提升内容生产效率与创新力。查看详情>>

17. Windows 11强化AI隐私控制：Copilot等智能体访问用户文件夹需手动授权

微软更新Windows 11隐私机制，要求AI智能体访问桌面、文档等六个常用文件夹前必须获得用户明确许可。本文详解授权流程、系统版本要求及企业用户注意事项。查看详情>>

18. 谷歌与Meta深化合作：TPU生态开放，AI芯片市场格局生变

谷歌与Meta Platforms宣布深化合作，共同推进AI芯片软件生态建设，优化TPU在PyTorch上的兼容性，旨在降低对英伟达GPU的依赖。合作涉及TPU算力租用与直接采购，可能打破英伟达CUDA垄断，推动AI硬件市场多元化。查看详情>>

19. AI巨头印度免费战白热化：ChatGPT日活暴涨607%，谷歌、Perplexity砸重金抢滩

OpenAI、谷歌、Perplexity在印度展开激烈竞争，通过大规模免费服务争夺用户。ChatGPT印度日活达7300万，同比激增607%；谷歌与Jio合作向5亿用户提供免费订阅。免费策略旨在获取多语言数据并抢占新兴市场，本土AI企业面临边缘化风险。查看详情>>

20. 亚马逊AI架构重大重组：AGI团队并入新战略单元，AWS老将DeSantis接棒

亚马逊宣布整合AGI团队、芯片研发与量子计算业务，成立直接向CEO汇报的AI战略单元，由27年AWS资深高管Peter DeSantis领导，旨在加速AI技术商业化进程。查看详情>>

AI咨询发布：AI视野 | 全球AI信息聚合平台。

AI每日资讯 # 每日AI资讯速递

文章版权归作者所有，未经允许请勿转载。