商汤搞了个大动作！开源行业首个原生多模态模型NEO，视觉和语言终于深度融合了

12 月 2 日，人工智能领军企业商汤科技联合南洋理工大学 S-Lab 正式推出并开源了一款革命性的多模态模型架构——NEO，标志着其“日日新 SenseNova”体系在多模态领域迈入全新阶段。该架构被官方称为“行业首个真正实现深度整合的原生视觉语言模型（Native VLM）”，旨在从底层重构多模态AI的设计逻辑，打破现有技术路径的局限。

当前主流的多模态系统普遍采用“视觉编码器 + 投影层 + 大语言模型”的拼接式结构。这种架构虽能实现图文输入的基本兼容，但本质上仍以文本为核心，图像信息往往经过压缩与离散化处理后被动嵌入语言流程，导致视觉语义流失严重，尤其在需要精细空间理解或复杂场景推理的任务中表现受限。商汤指出，这类“后天嫁接”模式已逐渐触及性能天花板。

为突破这一瓶颈，NEO 架构从零构建，摒弃传统模块化思路，转而追求视觉与语言在模型基因层面的深度融合。其核心创新集中于三大机制：原生图块嵌入、原生三维旋转位置编码及原生多头注意力结构，使模型自诞生起即具备统一感知与理解跨模态信息的能力。

具体而言，NEO 首创 Patch Embedding Layer（PEL），取代传统的离散图像 tokenizer，实现从原始像素到语义词元的端到端连续映射。这一设计显著提升了对图像局部细节的捕捉精度，有效缓解了主流架构中存在的视觉建模失真问题。同时，其独创的 Native-RoPE 编码方案对视觉与文本分别施加高频与低频的空间-时间频率调制，精准匹配两种模态的内在结构特性，不仅增强了空间关系建模能力，更为未来向视频、动态场景等高维应用拓展预留了天然接口。

在注意力机制层面，NEO 实现了关键性突破：在同一框架下并行支持文本 token 的自回归单向注意力与图像 token 的双向上下文关注。这种混合注意力策略极大提升了模型对图文交叉语义的解析效率，尤其适用于需深度推理的复杂交互任务。

训练策略上，NEO 采用 Pre-Buffer & Post-LLM 双阶段融合方法，在完整保留大语言模型原有语言推理能力的同时，独立训练视觉通路，避免了传统跨模态微调中常见的语言能力退化现象。

实测数据显示，NEO 在多个维度展现出领先优势：仅用约 3.9 亿图文对（相当于同类顶级模型十分之一的数据量），便在 MMMU、MMBench、MMStar 等权威测评中达到甚至超越 Qwen2-VL、InternVL3 等旗舰模型的表现；在 0.6B 至 8B 参数区间内，推理效率和部署灵活性尤为突出，特别适合边缘设备场景。

目前，商汤已将基于 NEO 架构的 2B 和 9B 两个版本模型全面开源，代码与技术论文已在 GitHub 与 arXiv 平台同步发布，供全球开发者与研究机构使用：

https://github.com/EvolvingLMMs-Lab/NEO
https://arxiv.org/abs/2510.14979

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复