首个8B小钢炮！面壁开源MiniCPM-V 4.5，号称最强手机多模态模型

8 月 27 日，AI 领域迎来一项重要突破——面壁智能于 8 月 26 日正式开源其全新 8B 参数多模态旗舰模型 MiniCPM-V 4.5，代号“面壁小钢炮”。该模型一经发布，便以行业首创的“高刷”视频理解能力引发广泛关注，被官方誉为“最强端侧多模态模型”，在多项关键性能指标上实现越级超越。

此次发布的 MiniCPM-V 4.5 在高刷新率视频理解、长视频解析、OCR 识别及复杂文档处理等核心能力上均达到同级别 SOTA（State-of-the-Art）水平，其综合表现甚至超越了参数规模高达 72B 的 Qwen2.5-VL 模型，展现出惊人的效率与精度平衡。

据面壁智能介绍，传统多模态模型在处理视频内容时，受限于算力与能耗，普遍采用每秒抽取 1 帧（1 fps）的方式进行分析。这种方式虽提升了推理效率，却导致大量动态信息流失，使得模型难以捕捉快速变化的视觉细节，如同观看一张张静止的幻灯片。

MiniCPM-V 4.5 的突破性在于其创新性地将模型结构从 2D-Resampler 升级为 3D-Resampler，实现了对三维视频片段的高密度压缩。在相同视觉 Token 消耗的前提下，该模型可接收的视频帧数最高提升至 6 倍，视觉压缩效率达到惊人的 96 倍，是同类模型的 12 到 24 倍之多。这意味着，模型能够以更高的“刷新率”捕捉画面，真正从“看 PPT”进化为“理解动态影像”。

这一能力使得 MiniCPM-V 4.5 在处理快速闪过的画面时，展现出超越 Gemini-2.5-Pro、GPT-5、GPT-4o 等主流云端大模型的识别精度与细节捕捉能力。在 MotionBench 和 FavorBench 两大高刷视频理解评测榜单中，该模型不仅稳居同尺寸模型榜首，更以越级表现超越了更大规模的竞品。

除了视频理解，MiniCPM-V 4.5 在图片解析、文档识别等领域同样表现卓越。在 OpenCompass 图像理解测评中，其性能超越 GPT-4o、GPT-4.1 及 Gemini-2.0-Pro 等闭源模型，甚至优于 Qwen2.5-VL 72B。在 LVBench、MLVU、Video-MME 和 LongVideoBench 等视频理解基准测试中，也均位列同级第一。

面对复杂文档识别挑战，MiniCPM-V 4.5 在 OmniDocBench 榜单的 OverallEdit、TextEdit 和 TableEdit 三项关键指标上，均取得通用多模态模型中的最佳成绩。此外，模型支持常规模式与深度思考模式双轨运行，兼顾日常任务的高效响应与复杂推理的深度处理。

在 Video-MME 和 OpenCompass 单图测试中，MiniCPM-V 4.5 不仅性能领先，更在显存占用和推理耗时上表现优异。特别是在涵盖短、中、长视频的 Video-MME 测评中，采用 3 帧打包策略的 MiniCPM-V 4.5，其推理时间开销仅为同级模型的十分之一，极大提升了实用性。

目前，MiniCPM-V 4.5 已全面开源，开发者可通过以下平台获取：

Github：https://github.com/OpenBMB/MiniCPM-o
Hugging Face：https://huggingface.co/openbmb/MiniCPM-V-4_5
ModelScope：https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复