678CHAT AI资讯 首个8B小钢炮!面壁开源MiniCPM-V 4.5,号称最强手机多模态模型

首个8B小钢炮!面壁开源MiniCPM-V 4.5,号称最强手机多模态模型

8 月 27 日,AI 领域迎来一项重要突破——面壁智能于 8 月 26 日正式开源其全新 8B 参数多模态旗舰模型 MiniCPM-V 4.5,代号“面壁小钢炮”。该模型一经发布,便以行业首创的“高刷”视频理解能力引发广泛关注,被官方誉为“最强端侧多模态模型”,在多项关键性能指标上实现越级超越。

首个8B小钢炮!面壁开源MiniCPM-V 4.5,号称最强手机多模态模型插图

此次发布的 MiniCPM-V 4.5 在高刷新率视频理解、长视频解析、OCR 识别及复杂文档处理等核心能力上均达到同级别 SOTA(State-of-the-Art)水平,其综合表现甚至超越了参数规模高达 72B 的 Qwen2.5-VL 模型,展现出惊人的效率与精度平衡。

据面壁智能介绍,传统多模态模型在处理视频内容时,受限于算力与能耗,普遍采用每秒抽取 1 帧(1 fps)的方式进行分析。这种方式虽提升了推理效率,却导致大量动态信息流失,使得模型难以捕捉快速变化的视觉细节,如同观看一张张静止的幻灯片。

MiniCPM-V 4.5 的突破性在于其创新性地将模型结构从 2D-Resampler 升级为 3D-Resampler,实现了对三维视频片段的高密度压缩。在相同视觉 Token 消耗的前提下,该模型可接收的视频帧数最高提升至 6 倍,视觉压缩效率达到惊人的 96 倍,是同类模型的 12 到 24 倍之多。这意味着,模型能够以更高的“刷新率”捕捉画面,真正从“看 PPT”进化为“理解动态影像”。

这一能力使得 MiniCPM-V 4.5 在处理快速闪过的画面时,展现出超越 Gemini-2.5-Pro、GPT-5、GPT-4o 等主流云端大模型的识别精度与细节捕捉能力。在 MotionBench 和 FavorBench 两大高刷视频理解评测榜单中,该模型不仅稳居同尺寸模型榜首,更以越级表现超越了更大规模的竞品。

除了视频理解,MiniCPM-V 4.5 在图片解析、文档识别等领域同样表现卓越。在 OpenCompass 图像理解测评中,其性能超越 GPT-4o、GPT-4.1 及 Gemini-2.0-Pro 等闭源模型,甚至优于 Qwen2.5-VL 72B。在 LVBench、MLVU、Video-MME 和 LongVideoBench 等视频理解基准测试中,也均位列同级第一。

首个8B小钢炮!面壁开源MiniCPM-V 4.5,号称最强手机多模态模型插图1

面对复杂文档识别挑战,MiniCPM-V 4.5 在 OmniDocBench 榜单的 OverallEdit、TextEdit 和 TableEdit 三项关键指标上,均取得通用多模态模型中的最佳成绩。此外,模型支持常规模式与深度思考模式双轨运行,兼顾日常任务的高效响应与复杂推理的深度处理。

在 Video-MME 和 OpenCompass 单图测试中,MiniCPM-V 4.5 不仅性能领先,更在显存占用和推理耗时上表现优异。特别是在涵盖短、中、长视频的 Video-MME 测评中,采用 3 帧打包策略的 MiniCPM-V 4.5,其推理时间开销仅为同级模型的十分之一,极大提升了实用性。

目前,MiniCPM-V 4.5 已全面开源,开发者可通过以下平台获取:

  • Github:https://github.com/OpenBMB/MiniCPM-o

  • Hugging Face:https://huggingface.co/openbmb/MiniCPM-V-4_5

  • 首个8B小钢炮!面壁开源MiniCPM-V 4.5,号称最强手机多模态模型插图2

    ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/19290.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部