面壁智能开源MiniCPM-V4.5:8B参数实现高刷视频理解,端侧AI迎来突破

近日,面壁智能正式开源其最新研发的MiniCPM-V4.5多模态模型,该模型凭借8B参数量级和创新的“高刷”视频理解能力,在端侧AI领域引发广泛关注。作为面壁智能MiniCPM系列的最新迭代成果,该模型在多项性能评测中超越72B参数规模的竞品,展现出“小模型大能力”的技术突破。

技术突破:高刷视频理解重构端侧视觉体验
MiniCPM-V4.5的核心创新在于其首创的“高刷”视频处理能力。通过3D-Resampler结构,模型实现了对高密度视频帧的高效压缩与分析,视觉压缩率达到同类模型的12-24倍。在FavorBench等专业评测中,其视频理解表现显著优于谷歌Gemini 2.5 Pro等大参数模型,能够精准识别每秒10帧以上的快速切换画面内容(如3秒内连续闪现的四张文字纸张),而传统模型仅能捕捉1-2帧关键信息。这种能力为车载系统、具身智能等实时交互场景提供了新的技术解决方案。

多模态性能全面领先
除视频领域外,该模型在单图理解、OCR识别、复杂文档解析等任务中均实现同参数级别SOTA。其创新性地融合OCR与知识学习双范式,通过动态控制文字信息可见度,显著提升了对表格、公式等结构化数据的处理精度。在Video-MME评测中,MiniCPM-V4.5的时间开销仅为同级模型的1/10,显存占用和推理效率优势明显。

开源生态与落地前景
目前模型已同步上线GitHub、Hugging Face和ModelScope平台。面壁智能强调,该模型专为端侧设备优化,在手机、平板等移动终端可实现低功耗持续运行。行业分析认为,其“高刷”技术将推动智能座舱、工业质检等场景的体验升级,标志着端侧多模态模型从“可用”向“好用”的关键跨越。

© 版权声明

相关文章