近日,一场围绕大模型技术源头的激烈争论在AI圈持续发酵。欧洲知名AI公司Mistral的CEO Arthur Mensch在一次公开访谈中直言,中国开源明星模型DeepSeek-V3“实质上沿用了Mistral提出的架构”。此言一出,迅速点燃了全球开发者社区的讨论热潮,质疑声与支持声交织,演变成一场关于技术创新归属权的舆论风暴。
争议焦点:是“站在巨人肩膀”还是“另辟蹊径”?
Mensch在采访中强调,Mistral早在2024年初便率先发布了基于稀疏混合专家(MoE)架构的Mixtral模型,并认为DeepSeek后续推出的MoE版本明显受到其启发,甚至“直接复用了核心设计思路”。然而,这一说法很快遭到技术社区的深度反诘。
多方考证显示,事实远比表面复杂:首先,时间线高度重叠——Mixtral与DeepSeek MoE的arXiv论文提交仅相隔三天,几乎同步公开,难以断定存在单向借鉴;其次,技术路径存在显著差异——尽管同属SMoE范畴,Mixtral侧重于工程层面的高效推理优化,而DeepSeek则在算法底层引入了“细粒度专家分割”与“共享专家”机制,将通用能力与任务特异性知识解耦,形成更灵活的专家调度体系,这与Mistral采用的扁平化专家结构有本质不同。
剧情反转:谁才是真正的“技术回流”受益者?
更耐人寻味的是,随着讨论深入,舆论风向悄然逆转。有资深研究员指出,若真要追溯架构影响,方向或许恰恰相反。2025年底发布的Mistral3 Large被网友逐行比对后发现,其注意力机制与专家路由模块竟与DeepSeek-V3所采用的MLA(Multi-Layer Attention)等原创技术高度相似,甚至部分实现细节如出一辙。
一时间,“岁月史书”的调侃在社交平台刷屏。不少开发者笑称,Mistral此举更像是试图通过“话语权重构”来掩盖自身在MoE创新上的滞后——毕竟,DeepSeek系列凭借其独特的架构设计,已在多个开源榜单和工业部署场景中展现出更强的性能与扩展性,影响力正快速超越早期MoE先行者。
开源竞技场:合作底色下的激烈角力
尽管口水战不断,但双方都未否认开源生态的核心价值。正如Mensch在访谈前半段所言:“真正的进步,从来不是闭门造车,而是在彼此代码的基础上迭代跃迁。”如今,这场争论已超越单纯的技术溯源,折射出全球AI巨头在模型军备竞赛中的深层焦虑。
据悉,DeepSeek团队正紧锣密鼓筹备2026年春节档的新一代模型发布,性能指标或将再次刷新行业认知;而Mistral也加速推进其Devstral编程智能体家族的更新节奏,力图在开发者生态中重夺话语权。在这场没有硝烟的战争中,口头声明终将让位于实测数据——唯有真正跑得更快、更稳的模型,才能赢得开发者用脚投票的信任。
