678CHAT AI资讯 上海AI实验室放大招!新出的书生・万象3.5,多模态能力比GPT-5还牛,还开源了

上海AI实验室放大招!新出的书生・万象3.5,多模态能力比GPT-5还牛,还开源了

9 月 3 日,上海人工智能实验室(上海 AI 实验室)正式宣布,其自主研发的通用多模态大模型“书生・万象 3.5”(InternVL3.5)全面开源。此次发布的模型在推理能力、部署效率以及跨场景通用性方面实现了系统性升级,标志着国产多模态大模型在智能化应用层面迈出了关键一步。

上海AI实验室放大招!新出的书生・万象3.5,多模态能力比GPT-5还牛,还开源了插图

本次开源涵盖9种不同参数规模的模型版本,参数量从10亿到2410亿不等,充分适配从边缘设备到云端服务器的多样化部署需求。其中,旗舰版本InternVL3.5-241B-A28B在权威多学科推理测评MMMU中斩获77.7分,不仅位居开源模型榜首,更在多项指标上展现出与顶尖闭源模型相抗衡的实力。尤其在多模态感知与文本理解能力方面,该模型已超越GPT-5,成为当前开源领域中的领头羊。

相较于前代InternVL3.0,新版模型在多个前沿应用场景中实现了质的飞跃,尤其是在GUI智能代理、具身智能空间理解以及矢量图像处理等方向表现突出。研究团队聚焦“从感知到执行”的能力闭环,显著增强了模型在真实环境中的任务执行与逻辑思考能力,推动AI从“看得懂”迈向“做得对”。

  • 在图形界面交互方面,InternVL3.5于ScreenSpot-v2元素定位任务中取得92.9分的优异成绩,领先同类模型。它不仅能精准识别跨平台界面元素,还支持在Windows与Ubuntu系统中完成自动化操作,在WindowsAgentArena测试中大幅超越Claude-3.7-Sonnet,展现出强大的系统级操作潜力。

  • 在具身智能评测中,该模型展现出对三维空间关系的理解与路径规划能力,在VSI-Bench测试集上以69.5分超越Gemini-2.5-Pro,为智能体在物理环境中的自主导航提供了坚实的技术支撑。

  • 在矢量图形的理解与生成任务中,InternVL3.5刷新开源模型纪录,SGP-Bench得分高达70.7分,其生成质量的FID值亦优于GPT-4o与Claude-3.7-Sonnet,彰显其在设计、工程等专业领域的应用前景。

具体应用层面,InternVL3.5已实现跨Windows、Mac、Ubuntu乃至Android平台的无缝交互,能够自动识别界面组件并执行鼠标点击、键盘输入等操作,完成诸如恢复误删文件、批量导出PDF、自动添加邮件附件等复杂任务,极大提升办公自动化效率。

上海AI实验室放大招!新出的书生・万象3.5,多模态能力比GPT-5还牛,还开源了插图1

此外,模型具备卓越的grounding能力,可泛化至未知且复杂的具身场景,结合抓取算法,支持长程、多步骤的物体抓取与交互操作,为服务机器人、智能制造等领域提供了可扩展的技术路径。

作为“书生”大模型体系中专注于视觉技术的核心分支,InternVL系列持续引领多模态技术发展,全系列模型全球下载量已突破2300万次,成为开发者社区中备受青睐的开源工具。

附相关资源链接:

  • 技术报告链接:https://huggingface.co/papers/2508.18265

  • 代码开源 / 模型使用方法:https://github.com/OpenGVLab/InternVL

  • 模型地址:https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B

  • 上海AI实验室放大招!新出的书生・万象3.5,多模态能力比GPT-5还牛,还开源了插图2

    在线体验链接:https://chat.intern-ai.org.cn/

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/19776.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部