678CHAT AI资讯 华为盘古718B新成绩出炉,开源榜排第二

华为盘古718B新成绩出炉,开源榜排第二

群雄逐鹿,百舸争流,但在最新的AI大模型竞技场上,华为依然以硬核实力站上了领奖台。

华为盘古718B新成绩出炉,开源榜排第二插图

在最新发布的SuperCLUE中文大模型综合评测榜单中,各大国产模型激烈交锋,成绩揭晓令人瞩目。

聚焦于开源与国产两大关键维度,排名前三的模型依次为:

  • DeepSeek-V3.1-Terminus-Thinking

  • openPangu-Ultra-MoE-718B

  • Qwen3-235B-A22B-Thinking-2507

值得一提的是,SuperCLUE作为业内权威的评测体系,本次测评覆盖数学、科学、编程、智能体行为、幻觉控制及指令遵循六大核心能力,总计1260道高难度测试题,全面检验模型的综合素养。

那么,华为这款参数规模高达7180亿的MoE架构大模型,究竟是如何在强手林立中杀出重围的?

在深入访谈openPangu核心研发团队后,我们发现其制胜之道并非依赖“数据堆砌”的粗放模式,而是走出了一条“以思考驱动智能”的精细化路线。

这背后,究竟藏着怎样的技术逻辑?

从“喂得多”到“喂得精”

众所周知,训练数据的质量直接决定了模型的上限。

为此,openPangu团队在数据构建上确立了三大铁律:质量为先、覆盖多元、难度分层。

他们打造了一套贯穿“生成-筛选-增强”的全链路数据管理体系。

  • 质量为先:建立多层评估机制,融合规则判断、模型打分与人工复核,精准剔除低质、噪声数据。

  • 覆盖多元:从学科领域与任务类型双重维度设计数据结构,并通过智能算法去重压缩,确保知识广度的同时避免信息冗余。

  • 难度分层:通过量化推理步骤、抽象层级与计算复杂度,构建难度评估体系,并采用自迭代拒绝采样技术,重点强化中高阶复杂任务的训练强度。

正是这种对数据“精耕细作”的态度,为模型在复杂推理场景下的稳健表现打下了坚实基础。

三段式预训练:层层递进,夯实根基

模型的强大,离不开扎实的预训练策略。

openPangu-718B采用了“三阶段”渐进式预训练路径:通用认知、深度推理、能力退火。

第一阶段“通用认知”,旨在构建模型的广域知识图谱。通过海量文本与代码的学习,模型建立起对世界的初步理解。

第二阶段“深度推理”,则聚焦逻辑与思维能力的跃升。团队大幅增加数学、STEM与编程类数据比例,并引入多步骤高阶推理题库。

华为盘古718B新成绩出炉,开源榜排第二插图1

为减少幻觉、提升推理连贯性,团队为这些题目精心设计思维链(CoT)标注,引导模型掌握“解题思路”而不仅是“答案”。

第三阶段“能力退火”,重点在于知识迁移与应用。通过逐步扩展上下文长度至128K,并增加指令类数据比重,模型在长文本理解与任务执行上实现突破。

同时,引入多样化Agent交互数据,为模型掌握工具调用能力埋下伏笔。

对抗幻觉:让模型学会“自我反思”

如何减少“一本正经胡说八道”?openPangu给出了创新解法——“批判内化”机制。

不同于传统仅依赖人类标注反馈的微调方式,该机制让模型在训练后期学会“自我审视”。

通过在拒绝采样过程中注入自我批判信号,模型被训练成不仅能生成答案,更能依据任务准则(Guideline)评估自身推理过程的合理性。

这种内化的批判性思维,使模型在输出时能主动检查逻辑漏洞、信息缺失或指令偏离,显著降低幻觉发生率。

实验证明,该机制不仅提升了回答的可靠性,也增强了指令遵循与价值观对齐能力。

智能体进化:像人类一样“使用工具”

为强化模型的Agent能力,团队推出了升级版工具数据合成框架ToolACE。

该框架通过四大核心技术生成高仿真、多轮次、多工具协同的训练数据:

  • 领域工具联动:将日程、航班、地图等关联工具组合训练,构建工具依赖图谱,教会模型协同调度。

  • 交互式任务规划:采用“先计划后执行”模式,由AI生成工具调用序列,并在模拟环境中执行,形成完整操作轨迹。

  • 多智能体对话模拟:多个AI扮演用户与助手,生成自然对话流,并引入打断、澄清等复杂交互,提升真实感。

  • 多维质量校验:对生成数据进行内容、状态、效率等多维度评估,错误案例反哺优化生成策略。

这套体系让openPangu在复杂任务中展现出接近人类的工具使用灵活性。

三步精调:打磨最后一公里

第一步:渐进动态微调(PDFT)

为防止指令微调阶段的过拟合,团队采用PDFT策略,平滑过渡从标准SFT到动态学习,聚焦薄弱知识点,实现学习效率与泛化能力的平衡。

第二步:强化学习优化

针对MoE模型的训练稳定性挑战,采用GSPO算法进行策略优化,确保强化学习过程不“掉点”,持续提升性能。

第三步:模型融合

通过黑盒优化方法,自动搜索多个候选模型的最佳融合权重,整合各版本优势,产出综合表现最优的最终模型。

纵观openPangu-718B的成功路径,其背后是一整套系统化、精细化的技术布局。

从三段预训练打底,到批判内化控幻觉,再到ToolACE强化Agent能力,最后通过三步精调完成性能跃迁,每一步都彰显对技术本质的深刻理解。

华为盘古718B新成绩出炉,开源榜排第二插图2

这不仅是一次技术突破,更为整个大模型行业树立了“细节决定成败”的新标杆。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/20842.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部