OpenAI最新报告：AI打工人上线，干专家的活快100倍，还只花1%的钱

9月27日，人工智能领域迎来一项重要进展：OpenAI正式推出名为GDPval的全新评估框架，旨在重新定义AI模型在现实经济场景中的能力衡量标准。这一举措被视为连接学术研究与商业应用之间鸿沟的关键一步，标志着AI评测正从理论走向实践。

当前市场上，尽管各类AI工具层出不穷，宣称能够大幅提升工作效率，但其在真实企业环境中的表现却往往难以量化。传统评测多依赖于封闭式问题和文本生成任务，难以反映AI在实际业务流程中的综合能力。为此，OpenAI构建了GDPval这一更具现实指向性的评估体系，核心目标直指“衡量AI在创造真实经济价值任务中的有效性”。

该基准的设计极具现实穿透力。它聚焦美国经济中贡献最大的九大行业，涵盖44种职业，细化出1320项具体工作任务。每一项任务均由具备平均14年从业经验的专业人士设计，确保内容不仅贴近真实岗位需求，且具备足够的复杂度与专业性。

与以往评测不同，GDPval不再局限于文本问答或代码生成，而是要求AI完成包括文件处理、PPT制作、报表排版等多模态输出任务。这种设计迫使模型必须具备跨格式理解与内容组织能力，更贴近职场中常见的交付场景，从而更准确地评估其实际可用性。

在首轮测试中，OpenAI对多个顶尖模型进行了盲评，参测者包括GPT-5、GPT-4o、Claude Opus 4.1以及Gemini 2.5 Pro等。结果令人意外：Anthropic的Claude Opus 4.1凭借在文档美观性、幻灯片结构布局等方面的卓越表现，斩获综合得分第一；而GPT-5则在专业知识准确性上遥遥领先，展现出强大的事实推理能力。

更值得关注的是性能跃迁的速度与成本优势。数据显示，从GPT-4o到GPT-5，模型在GDPval任务上的整体表现提升超过一倍。而在执行效率方面，前沿AI模型完成任务的速度约为人类专家的100倍，成本仅为其百分之一。

不过，OpenAI也明确指出，这些成本数据仅基于模型推理本身，并未计入现实应用中必要的人工审核、反馈迭代与系统集成等环节。此外，当前版本的GDPval仍存在局限，主要针对单次性任务，尚无法评估AI在持续修改、客户沟通或应对模糊需求等动态情境下的表现。

未来，OpenAI计划扩展该基准覆盖范围，纳入更多行业与高难度任务，并将部分数据集公开，推动整个AI社区在更贴近现实的尺度上进行技术演进。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复