12 月 2 日,人工智能领军企业商汤科技联合南洋理工大学 S-Lab 正式推出并开源了一款革命性的多模态模型架构——NEO,标志着其“日日新 SenseNova”体系在多模态领域迈入全新阶段。该架构被官方称为“行业首个真正实现深度整合的原生视觉语言模型(Native VLM)”,旨在从底层重构多模态AI的设计逻辑,打破现有技术路径的局限。

当前主流的多模态系统普遍采用“视觉编码器 + 投影层 + 大语言模型”的拼接式结构。这种架构虽能实现图文输入的基本兼容,但本质上仍以文本为核心,图像信息往往经过压缩与离散化处理后被动嵌入语言流程,导致视觉语义流失严重,尤其在需要精细空间理解或复杂场景推理的任务中表现受限。商汤指出,这类“后天嫁接”模式已逐渐触及性能天花板。
为突破这一瓶颈,NEO 架构从零构建,摒弃传统模块化思路,转而追求视觉与语言在模型基因层面的深度融合。其核心创新集中于三大机制:原生图块嵌入、原生三维旋转位置编码及原生多头注意力结构,使模型自诞生起即具备统一感知与理解跨模态信息的能力。
具体而言,NEO 首创 Patch Embedding Layer(PEL),取代传统的离散图像 tokenizer,实现从原始像素到语义词元的端到端连续映射。这一设计显著提升了对图像局部细节的捕捉精度,有效缓解了主流架构中存在的视觉建模失真问题。同时,其独创的 Native-RoPE 编码方案对视觉与文本分别施加高频与低频的空间-时间频率调制,精准匹配两种模态的内在结构特性,不仅增强了空间关系建模能力,更为未来向视频、动态场景等高维应用拓展预留了天然接口。
在注意力机制层面,NEO 实现了关键性突破:在同一框架下并行支持文本 token 的自回归单向注意力与图像 token 的双向上下文关注。这种混合注意力策略极大提升了模型对图文交叉语义的解析效率,尤其适用于需深度推理的复杂交互任务。

训练策略上,NEO 采用 Pre-Buffer & Post-LLM 双阶段融合方法,在完整保留大语言模型原有语言推理能力的同时,独立训练视觉通路,避免了传统跨模态微调中常见的语言能力退化现象。
实测数据显示,NEO 在多个维度展现出领先优势:仅用约 3.9 亿图文对(相当于同类顶级模型十分之一的数据量),便在 MMMU、MMBench、MMStar 等权威测评中达到甚至超越 Qwen2-VL、InternVL3 等旗舰模型的表现;在 0.6B 至 8B 参数区间内,推理效率和部署灵活性尤为突出,特别适合边缘设备场景。
目前,商汤已将基于 NEO 架构的 2B 和 9B 两个版本模型全面开源,代码与技术论文已在 GitHub 与 arXiv 平台同步发布,供全球开发者与研究机构使用:
-
https://github.com/EvolvingLMMs-Lab/NEO
https://arxiv.org/abs/2510.14979
