Mistral CEO 说 DeepSeek 抄了自家架构，谁才是真老师？

近日，一场围绕大模型技术源头的激烈争论在AI圈持续发酵。欧洲知名AI公司Mistral的CEO Arthur Mensch在一次公开访谈中直言，中国开源明星模型DeepSeek-V3“实质上沿用了Mistral提出的架构”。此言一出，迅速点燃了全球开发者社区的讨论热潮，质疑声与支持声交织，演变成一场关于技术创新归属权的舆论风暴。

争议焦点：是“站在巨人肩膀”还是“另辟蹊径”？

Mensch在采访中强调，Mistral早在2024年初便率先发布了基于稀疏混合专家（MoE）架构的Mixtral模型，并认为DeepSeek后续推出的MoE版本明显受到其启发，甚至“直接复用了核心设计思路”。然而，这一说法很快遭到技术社区的深度反诘。

多方考证显示，事实远比表面复杂：首先，时间线高度重叠——Mixtral与DeepSeek MoE的arXiv论文提交仅相隔三天，几乎同步公开，难以断定存在单向借鉴；其次，技术路径存在显著差异——尽管同属SMoE范畴，Mixtral侧重于工程层面的高效推理优化，而DeepSeek则在算法底层引入了“细粒度专家分割”与“共享专家”机制，将通用能力与任务特异性知识解耦，形成更灵活的专家调度体系，这与Mistral采用的扁平化专家结构有本质不同。

剧情反转：谁才是真正的“技术回流”受益者？

更耐人寻味的是，随着讨论深入，舆论风向悄然逆转。有资深研究员指出，若真要追溯架构影响，方向或许恰恰相反。2025年底发布的Mistral3 Large被网友逐行比对后发现，其注意力机制与专家路由模块竟与DeepSeek-V3所采用的MLA（Multi-Layer Attention）等原创技术高度相似，甚至部分实现细节如出一辙。

一时间，“岁月史书”的调侃在社交平台刷屏。不少开发者笑称，Mistral此举更像是试图通过“话语权重构”来掩盖自身在MoE创新上的滞后——毕竟，DeepSeek系列凭借其独特的架构设计，已在多个开源榜单和工业部署场景中展现出更强的性能与扩展性，影响力正快速超越早期MoE先行者。

开源竞技场：合作底色下的激烈角力

尽管口水战不断，但双方都未否认开源生态的核心价值。正如Mensch在访谈前半段所言：“真正的进步，从来不是闭门造车，而是在彼此代码的基础上迭代跃迁。”如今，这场争论已超越单纯的技术溯源，折射出全球AI巨头在模型军备竞赛中的深层焦虑。

据悉，DeepSeek团队正紧锣密鼓筹备2026年春节档的新一代模型发布，性能指标或将再次刷新行业认知；而Mistral也加速推进其Devstral编程智能体家族的更新节奏，力图在开发者生态中重夺话语权。在这场没有硝烟的战争中，口头声明终将让位于实测数据——唯有真正跑得更快、更稳的模型，才能赢得开发者用脚投票的信任。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复