在近期公布的中文多模态视觉语言模型权威测评SuperCLUE-VLM榜单中,谷歌推出的Gemini-2.5-Pro凭借卓越表现以74.99的高分稳居榜首,而OpenAI的GPT-5(high)版本则以68.59分紧随其后,位列第二,两大国际科技巨头在多模态AI领域的竞争态势愈发引人关注。

此次测评基准特别针对中文语言环境与本土视觉场景进行了深度优化,评测体系科学划分为三大核心模块:基础认知能力、复杂视觉推理能力以及实际场景中的视觉应用能力。通过构建贴近真实使用情境的测试任务,该榜单力求全面、精准地反映各模型在理解、分析和生成图文内容方面的综合实力,为行业提供一个透明、可比的评估尺度。

参与本次测评的模型阵容强大,覆盖了当前全球范围内最具代表性的15款多模态AI系统。除了上述国际领先模型外,国内科技企业也纷纷亮出自家“王牌”。百度推出的ERNIE-4.5-Turbo-VL、字节跳动的Doubao-Seed-1.6-thinking、腾讯的hunyuan-t1-vision以及阿里通义实验室的Qwen-V1-Max-Latest等均悉数登场,展现出中国AI企业在多模态技术赛道上的快速追赶与强劲势头。
从最终排名来看,Gemini-2.5-Pro在多项细分指标中表现抢眼,尤其是在复杂图像理解与跨模态逻辑推理方面优势明显,成为唯一突破70分大关的模型。GPT-5(high)虽屈居第二,但其在语义连贯性与生成质量上依然保持了OpenAI一贯的高水准。值得注意的是,百度ERNIE-4.5-Turbo-VL与多家国内模型在整体评分上差距微小,形成集团式追赶格局,预示着国产多模态大模型正逐步缩小与国际顶尖水平的差距,未来竞争或将更加白热化。
业内人士指出,随着视觉与语言融合技术的不断突破,多模态模型将在影视创作、智能内容生成、虚拟现实交互等领域发挥越来越关键的作用。此次榜单不仅揭示了当前技术格局,也为内容创作者和平台方选择合适的AI工具提供了重要参考。可以预见,围绕多模态能力的创新竞赛,将成为下一阶段AI发展的核心战场。
