商汤开源NEO架构：多模态模型不再拼图，数据少90%照样刷榜第一

商汤科技携手新加坡南洋理工大学 S-Lab 正式推出业界首个原生多模态架构 NEO，并同步在开源社区发布参数规模分别为20亿与90亿的两款模型。该架构彻底告别了当前主流的“视觉编码器 + 投影层 + 语言模型”三段式拼接范式，从底层注意力机制、位置编码策略到跨模态语义映射逻辑全面重构。据官方披露，在实现同等性能指标的前提下，NEO 所需训练数据量仅为行业平均水平的十分之一，首次达成从原始像素到语义 Token 的端到端连续映射。

商汤方面技术负责人详细解读称，NEO 架构的核心创新在于引入原生图块嵌入层（Native Patch Embedding），直接从图像像素中提取特征，彻底摒弃了传统独立的图像 Tokenizer 模块；同时，其独创的三维旋转位置编码（Native-RoPE）机制，能够在统一向量空间中同步建模文本序列与视觉内容的时空频率信息。在注意力计算层面，NEO 采用“视觉双向注意力 + 文本自回归注意力”的混合策略，显著强化了跨模态的空间结构理解能力，相关评测显示其结构关联得分较现有方案提升达24%。实测结果进一步表明，在0.6B至8B参数量级范围内，NEO 在 ImageNet 图像分类、COCO 目标检测及 Kinetics-400 视频动作识别三大基准测试中均刷新了当前最优纪录（SOTA），且在边缘设备上的推理延迟控制在80毫秒以内，展现出极强的部署友好性。

目前，NEO 的模型权重与完整训练脚本已在 GitHub 平台全面开源，开发者可自由下载使用。商汤还透露，计划于2025年第一季度进一步开源支持3D感知与长视频理解能力的增强版本。业内专家指出，NEO 所代表的“深度原生融合”技术路径，或将终结长期以来多模态模型依赖模块堆叠的“拼积木”式开发模式，为资源受限的终端设备提供更高效率、更低门槛的新一代多模态性能基线，推动AI从云端向边缘加速演进。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复