678CHAT AI资讯 OpenAI最新报告:AI打工人上线,干专家的活快100倍,还只花1%的钱

OpenAI最新报告:AI打工人上线,干专家的活快100倍,还只花1%的钱

9月27日,人工智能领域迎来一项重要进展:OpenAI正式推出名为GDPval的全新评估框架,旨在重新定义AI模型在现实经济场景中的能力衡量标准。这一举措被视为连接学术研究与商业应用之间鸿沟的关键一步,标志着AI评测正从理论走向实践。

OpenAI最新报告:AI打工人上线,干专家的活快100倍,还只花1%的钱插图

当前市场上,尽管各类AI工具层出不穷,宣称能够大幅提升工作效率,但其在真实企业环境中的表现却往往难以量化。传统评测多依赖于封闭式问题和文本生成任务,难以反映AI在实际业务流程中的综合能力。为此,OpenAI构建了GDPval这一更具现实指向性的评估体系,核心目标直指“衡量AI在创造真实经济价值任务中的有效性”。

该基准的设计极具现实穿透力。它聚焦美国经济中贡献最大的九大行业,涵盖44种职业,细化出1320项具体工作任务。每一项任务均由具备平均14年从业经验的专业人士设计,确保内容不仅贴近真实岗位需求,且具备足够的复杂度与专业性。

与以往评测不同,GDPval不再局限于文本问答或代码生成,而是要求AI完成包括文件处理、PPT制作、报表排版等多模态输出任务。这种设计迫使模型必须具备跨格式理解与内容组织能力,更贴近职场中常见的交付场景,从而更准确地评估其实际可用性。

OpenAI最新报告:AI打工人上线,干专家的活快100倍,还只花1%的钱插图1

在首轮测试中,OpenAI对多个顶尖模型进行了盲评,参测者包括GPT-5、GPT-4o、Claude Opus 4.1以及Gemini 2.5 Pro等。结果令人意外:Anthropic的Claude Opus 4.1凭借在文档美观性、幻灯片结构布局等方面的卓越表现,斩获综合得分第一;而GPT-5则在专业知识准确性上遥遥领先,展现出强大的事实推理能力。

更值得关注的是性能跃迁的速度与成本优势。数据显示,从GPT-4o到GPT-5,模型在GDPval任务上的整体表现提升超过一倍。而在执行效率方面,前沿AI模型完成任务的速度约为人类专家的100倍,成本仅为其百分之一。

不过,OpenAI也明确指出,这些成本数据仅基于模型推理本身,并未计入现实应用中必要的人工审核、反馈迭代与系统集成等环节。此外,当前版本的GDPval仍存在局限,主要针对单次性任务,尚无法评估AI在持续修改、客户沟通或应对模糊需求等动态情境下的表现。

OpenAI最新报告:AI打工人上线,干专家的活快100倍,还只花1%的钱插图2

未来,OpenAI计划扩展该基准覆盖范围,纳入更多行业与高难度任务,并将部分数据集公开,推动整个AI社区在更贴近现实的尺度上进行技术演进。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/20583.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部