中国信通院推出方升3.0大模型新测试

在人工智能技术日新月异的当下，中国信息通信研究院（信通院）再次迈出关键一步，正式发布“方升”基准测试体系3.0版本。这一升级不仅是对原有评测框架的优化迭代，更标志着我国在AI模型评估领域正逐步构建起系统化、前瞻性的技术标准。新版体系在原有基础上引入了模型基础属性测试模块，首次将参数规模、推理效率等底层性能指标纳入评估范畴，使得评测维度更加立体全面。尤为值得关注的是，该体系已开始布局未来智能形态的评估方向，围绕全模态理解、长期记忆、自主学习等十项高阶能力展开探索，为工业制造、金融分析、基础科研等关键行业提供更具针对性的场景化测评支持。

为支撑“方升”3.0的高效运行，信通院正加速构建与之匹配的评测基础设施。在数据资源方面，计划新增300万条高质量测试样本，覆盖多语言、跨任务及多样化应用场景，力求在复杂语境下真实反映模型表现。同时，评测方法论也在持续进化，重点攻克大模型测试中的核心难题，如合成数据的生成质量控制与评估标准制定。更进一步，信通院正着手打造新一代智能评测基座，创新性地引入多智能体协同交互与环境感知仿真系统，模拟真实世界中的动态交互场景，从而精准评估智能体在协作决策、环境适应等方面的综合能力。

自2024年起，信通院已确立每两个月举办一次大模型基准测试的常态化机制。在最近一轮评估中，共计141个大模型与7个智能体参与测评，测试内容涵盖基础语言理解、逻辑推理、代码生成及多模态融合能力。结果显示，OpenAI推出的GPT-5依旧在综合性能上保持领先优势，展现出强大的泛化能力。而国产模型阵营也表现亮眼，阿里巴巴的Qwen3-Max-Preview与月之暗面的Kimi K2在多项指标中跻身前列，尤其在中文语境理解与本土化应用适配方面展现出独特优势。在多模态测试中，图像语义解析能力取得显著突破，但在涉及复杂因果推理与抽象逻辑推导的任务中，整体表现仍存在提升空间。

代码能力评测同样揭示出当前技术的瓶颈所在：尽管多数模型在函数级代码生成任务中准确率较高，但在真实软件开发流程中的项目级应用仍显乏力，缺乏对系统架构与工程规范的深度理解。这不仅反映出技术落地的现实挑战，也预示着全球AI竞争已进入深水区。未来，信通院将持续投入大模型评测技术的研发，强化评估体系的公信力与行业影响力，为我国人工智能的原始创新与新型工业化进程提供坚实支撑。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复