8月8日,国内人工智能领军企业智谱AI正式发布新一代开源视觉推理模型GLM-4.5V,引发行业震动。这款模型总参数量高达1060亿,激活参数为120亿,官方宣称其是当前千亿参数级别中性能最强的开源视觉模型。

值得一提的是,本次发布不仅包含模型权重在魔搭社区和Hugging Face平台的开源,还同步推出了极具价格优势的API服务:输入价格低至每百万tokens 2元,输出仅需6元,大幅降低了开发者的使用门槛。
在41个公开多模态评测榜单中,GLM-4.5V在图像理解、视频分析等领域的综合表现达到同规模开源模型的顶尖水平
技术团队透露,该模型基于新一代文本基座GLM-4.5-Air打造,继承了前代GLM-4.1V-Thinking的先进架构。与单纯追求评测分数不同,GLM-4.5V更注重实际应用场景的表现,其核心优势体现在:
-
全场景视觉理解:支持复杂图像解析、多图关联分析
-
长视频处理:可自动分镜并识别关键事件
-
人机交互增强:精准识别GUI界面元素并提供操作建议
专业文档解析:能高效处理复杂图表和长篇研报
模型创新性地加入了"思考模式"切换功能,用户可根据需求选择快速响应或深度推理模式。配套开源的桌面助手应用更是亮点,能实现:
-
实时屏幕内容分析
-
代码辅助编写
-
视频要点提炼
-
游戏攻略解析
智谱AI表示,此次开源旨在推动多模态生态发展,让曾经只存在于科幻电影中的智能交互逐步成为现实。

