当AI竞赛进入深水区,一场关于“数据”的暗战已然打响。

新眸原创·作者 | 简瑜
就在两个月前,Meta以约150亿美元(折合人民币超1070亿元)的惊人手笔,正式入股Scale AI,拿下接近一半的股权。这笔交易不仅让Scale AI的估值瞬间跃升至290亿美元,更将一个长期隐身于幕后的产业——数据标注,推到了台前。
成立于2016年的Scale AI,仅用五年时间便估值破百亿美元,堪称硅谷AI赛道最耀眼的“黑马”。而它的核心业务,听起来却异常朴素:为AI训练数据打标签。这项工作曾被普遍视为AI产业链中最基础、最乏味的“苦力活”,依赖大量人力,技术含量低,鲜少被资本关注。
然而,正是这个不起眼的环节,如今却成了巨头们争夺的战略高地。Meta的这次出手,不仅是对数据资产的押注,更是对人才与技术体系的全面收编。作为交易的一部分,Scale AI创始人汪滔将带领核心团队加入Meta,组建“超级智能小组”,专注于下一代AI模型的训练优化,而他本人也将继续保留在Scale董事会的席位。
这场并购的背后,暴露出Meta在AI竞争中的深层焦虑。2024年,其推出的Llama4Behemoth模型因训练数据质量不佳而广受批评——近三成语料来自低质社交媒体内容,导致其在多模态理解与长文本推理上,性能落后于GPT-4.5约12个百分点。数据短板,已成为制约其追赶的致命瓶颈。
在大模型时代,数据标注正从“边缘”走向“中枢”。它不再只是简单的框选与分类,而是AI理解世界的第一道认知桥梁。以自动驾驶为例,摄像头捕捉的画面本身对AI毫无意义,唯有通过人工标注出车道、行人、交通信号,这些数据才具备训练价值。
目前,行业主要分为三类参与者:一是依赖廉价劳动力的传统标注公司,效率低、质量不稳定;二是由大厂自建的众包平台,如百度众测、京东众智,服务于内部需求;三是具备AI驱动能力的智能服务商,如Scale AI,它们通过“AI预标注+人工校验”的混合模式,大幅提升效率与精度。
Scale AI的崛起路径颇具代表性。它最初名为ScaleAPI,主打“人力即服务”,开发者一行代码即可调用远程团队处理琐碎任务。随着积累大量高质量数据,公司逐步引入AI模型,实现自动化标注。据测算,AI标注成本可低至0.003美元/条,效率是传统方式的20倍,准确率甚至超越人类。
根据2024年7月DMR报告,全球数据标注市场规模约20亿美元,美国占比高达40%。这背后,既有全球化分工的布局优势——Scale通过Remotasks平台,将基础任务分发至菲律宾、肯尼亚等地,形成低成本人力网络;也有技术代差的现实——国内多数标注企业仍以人工为主,自动化能力薄弱。
更关键的是,Scale AI已超越传统标注商定位。从招聘、质检到销售分析,其内部流程高度自动化,创始人汪滔被誉为“天才少年”,19岁从MIT辍学创业,其战略视野远超单一技术环节。
当前,大模型训练重心正从预训练转向强化学习,对数据的专业性、精细度要求更高。医疗、法律、金融等垂直领域的需求激增,使得标注员角色日益复杂,需兼具专业知识与抽象思维。Surge AI便是其中代表,专注生成高质量代码数据,2024年营收已达10亿美元,反超Scale AI。
尽管AI标注与合成数据被视为未来方向,但现阶段仍难完全替代人工。规则制定、质量把控等关键环节,仍需人类深度参与。数据标注不会消失,只会进化得更智能、更专业。
曾经,在AI的“三驾马车”中,算法有OpenAI领跑,算力由英伟达主宰,而数据环节始终低调。如今,Meta的豪赌预示着:数据,正成为决定AI胜负的终极变量。
