谷歌近日发布的Gemini CLI工具更新引发开发者关注。该工具于2025年6月25日正式推出,旨在将多模态AI能力集成至命令行工作流。7月5日的最新版本1.2.0宣称新增音视频输入支持,但实际测试显示该功能尚未完全开放,当前仅能处理文本、图片及PDF文件。
技术文档显示,Gemini CLI基于Gemini 2.5 Pro模型构建,具备100万token上下文窗口,支持自然语言交互完成代码解释、功能编写等开发任务。此次更新重点包括:
1. 底层技术栈升级至Ink 6和React 19
2. 增强Markdown支持,改进表格渲染和文件导入功能
3. 新增VSCodium与Neovim集成
4. 引入隐私管理命令和历史记录优化算法
开发者可通过npm全局安装最新版本,免费用户享有每分钟60次、每日1000次的请求额度。谷歌在5月I/O大会上曾展示Gemini 2.5的多模态能力,包括实时视频分析和语音交互,但相关功能在CLI工具中的实现仍需等待后续更新。
目前该工具仍处于预览阶段,开发者可通过Google账户申请Gemini Code Assist使用许可。谷歌尚未公布音视频支持功能的具体上线时间表。
© 版权声明
文章版权归作者所有,未经允许请勿转载。