谷歌Gemini CLI工具1.2.0版本发布：新增音视频支持但功能尚未完全开放

AI产品动态11个月前发布 AI视野

谷歌近日发布的Gemini CLI工具更新引发开发者关注。该工具于2025年6月25日正式推出，旨在将多模态AI能力集成至命令行工作流。7月5日的最新版本1.2.0宣称新增音视频输入支持，但实际测试显示该功能尚未完全开放，当前仅能处理文本、图片及PDF文件。

技术文档显示，Gemini CLI基于Gemini 2.5 Pro模型构建，具备100万token上下文窗口，支持自然语言交互完成代码解释、功能编写等开发任务。此次更新重点包括：
1. 底层技术栈升级至Ink 6和React 19
2. 增强Markdown支持，改进表格渲染和文件导入功能
3. 新增VSCodium与Neovim集成
4. 引入隐私管理命令和历史记录优化算法

开发者可通过npm全局安装最新版本，免费用户享有每分钟60次、每日1000次的请求额度。谷歌在5月I/O大会上曾展示Gemini 2.5的多模态能力，包括实时视频分析和语音交互，但相关功能在CLI工具中的实现仍需等待后续更新。

目前该工具仍处于预览阶段，开发者可通过Google账户申请Gemini Code Assist使用许可。谷歌尚未公布音视频支持功能的具体上线时间表。

文章版权归作者所有，未经允许请勿转载。

谷歌Gemini CLI工具1.2.0版本发布：新增音视频支持但功能尚未完全开放

上海交大发布MAS-GPT突破性成果：单轮生成实现多智能体系统普惠化应用

AI Excel助手Shortcut在MEWC赛事中表现亮眼，效率超人类10倍

相关文章

Anthropic正式推出Claude Code插件系统，AI编程助手进入生态化时代

Snap与Perplexity AI达成4亿美元战略合作，AI搜索将整合至Snapchat

微软Microsoft 365 Copilot整合Claude模型，开启多AI模型协作新时代

Grammarly重大更新2025：AI写作工具全面升级，推出学术诚信检测功能

最新资讯

热门AI工具

热门资讯