一家名为DeepSeek的中国人工智能实验室近期在全球科技舞台上异军突起,其推出的AI聊天应用迅速登顶苹果App Store与Google Play的下载排行榜,引发国际广泛关注。这家公司的崛起不仅搅动了全球AI格局,更让华尔街分析师重新审视美国在人工智能领域的主导地位,以及未来AI芯片市场需求的走向。
DeepSeek的根源可追溯至中国知名量化对冲基金幻方量化(High-Flyer Capital Management),由AI技术爱好者梁文锋于2015年联合创办。梁文锋早年在浙江大学求学期间便涉足金融交易,2019年正式将幻方量化转型为一家以AI算法为核心驱动力的金融科技公司。正是在这一背景下,2023年,幻方启动了DeepSeek项目,最初作为内部AI研究实验室,后在资金与资源的持续投入下,独立为专注于大模型研发的科技企业。
自成立之初,DeepSeek便着手自建大规模数据中心用于模型训练,展现出极强的技术自主性。然而,受限于美国对高端AI芯片的出口管制,公司无法获取最先进的H100芯片,转而采用性能有所削弱的H800进行模型训练,这一现实挑战并未阻止其技术突破的步伐。
团队构成上,DeepSeek展现出鲜明的年轻化与多元化特征。公司积极从国内顶尖高校招募AI博士人才,同时吸纳非计算机背景的研究人员,以拓宽模型的知识边界和理解能力。这种跨学科融合的策略,被认为是其模型具备广泛适应性的关键因素之一。
2023年11月,DeepSeek首次发布DeepSeek Coder、LLM及Chat系列模型,初步进入公众视野。真正让业界侧目的,是2024年春季推出的DeepSeek-V2。该模型在多项权威基准测试中表现优异,且运行成本显著低于同类产品,直接促使字节跳动、阿里巴巴等国内巨头下调模型服务价格,甚至推出免费版本以应对竞争。
同年12月发布的DeepSeek-V3进一步巩固其技术领先地位。据内部测试显示,该模型在多项性能指标上超越Meta的Llama系列及OpenAI的GPT-4o,引发全球关注。更引人注目的是2025年初推出的R1推理模型,其宣称在复杂任务中的表现与OpenAI的o1模型不相上下。
R1作为推理增强型模型,具备自我验证能力,能在物理、数学等高精度领域提供更可靠的输出,尽管响应时间略长,但稳定性大幅提升。3月份,DeepSeek的月访问量突破1650万,虽与ChatGPT的5亿周活用户仍有差距,但增长势头不容小觑。
DeepSeek的技术开放策略也颇具影响力。尽管其模型并非完全开源,但采用宽松许可协议,允许商业使用。5月,公司在Hugging Face平台发布R1更新版,9月又推出V3.2-exp实验模型,旨在优化长文本处理效率。目前,开发者已基于R1创建超500个衍生模型,下载量达250万次。
然而,争议始终伴随其发展。由于需符合中国监管要求,DeepSeek模型在涉及敏感话题时会主动回避。与此同时,美国、韩国及纽约州等地已禁止政府设备使用其服务,OpenAI更公开指责其“受国家控制”,呼吁封禁。尽管如此,微软仍宣布在其Azure AI平台集成DeepSeek模型,黄仁勋也称赞其创新为英伟达带来新机遇。
未来,DeepSeek能否在技术突破与地缘政治压力之间找到平衡,仍充满未知。但其已无疑成为全球AI竞赛中不可忽视的力量。
