上海AI实验室放大招！新出的书生・万象3.5，多模态能力比GPT-5还牛，还开源了

9 月 3 日，上海人工智能实验室（上海 AI 实验室）正式宣布，其自主研发的通用多模态大模型“书生・万象 3.5”（InternVL3.5）全面开源。此次发布的模型在推理能力、部署效率以及跨场景通用性方面实现了系统性升级，标志着国产多模态大模型在智能化应用层面迈出了关键一步。

本次开源涵盖9种不同参数规模的模型版本，参数量从10亿到2410亿不等，充分适配从边缘设备到云端服务器的多样化部署需求。其中，旗舰版本InternVL3.5-241B-A28B在权威多学科推理测评MMMU中斩获77.7分，不仅位居开源模型榜首，更在多项指标上展现出与顶尖闭源模型相抗衡的实力。尤其在多模态感知与文本理解能力方面，该模型已超越GPT-5，成为当前开源领域中的领头羊。

相较于前代InternVL3.0，新版模型在多个前沿应用场景中实现了质的飞跃，尤其是在GUI智能代理、具身智能空间理解以及矢量图像处理等方向表现突出。研究团队聚焦“从感知到执行”的能力闭环，显著增强了模型在真实环境中的任务执行与逻辑思考能力，推动AI从“看得懂”迈向“做得对”。

在图形界面交互方面，InternVL3.5于ScreenSpot-v2元素定位任务中取得92.9分的优异成绩，领先同类模型。它不仅能精准识别跨平台界面元素，还支持在Windows与Ubuntu系统中完成自动化操作，在WindowsAgentArena测试中大幅超越Claude-3.7-Sonnet，展现出强大的系统级操作潜力。
在具身智能评测中，该模型展现出对三维空间关系的理解与路径规划能力，在VSI-Bench测试集上以69.5分超越Gemini-2.5-Pro，为智能体在物理环境中的自主导航提供了坚实的技术支撑。
在矢量图形的理解与生成任务中，InternVL3.5刷新开源模型纪录，SGP-Bench得分高达70.7分，其生成质量的FID值亦优于GPT-4o与Claude-3.7-Sonnet，彰显其在设计、工程等专业领域的应用前景。

具体应用层面，InternVL3.5已实现跨Windows、Mac、Ubuntu乃至Android平台的无缝交互，能够自动识别界面组件并执行鼠标点击、键盘输入等操作，完成诸如恢复误删文件、批量导出PDF、自动添加邮件附件等复杂任务，极大提升办公自动化效率。

此外，模型具备卓越的grounding能力，可泛化至未知且复杂的具身场景，结合抓取算法，支持长程、多步骤的物体抓取与交互操作，为服务机器人、智能制造等领域提供了可扩展的技术路径。

作为“书生”大模型体系中专注于视觉技术的核心分支，InternVL系列持续引领多模态技术发展，全系列模型全球下载量已突破2300万次，成为开发者社区中备受青睐的开源工具。

附相关资源链接：

技术报告链接：https://huggingface.co/papers/2508.18265
代码开源 / 模型使用方法：https://github.com/OpenGVLab/InternVL
模型地址：https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B
在线体验链接：https://chat.intern-ai.org.cn/

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复