华为盘古718B新成绩出炉，开源榜排第二

群雄逐鹿，百舸争流，但在最新的AI大模型竞技场上，华为依然以硬核实力站上了领奖台。

在最新发布的SuperCLUE中文大模型综合评测榜单中，各大国产模型激烈交锋，成绩揭晓令人瞩目。

聚焦于开源与国产两大关键维度，排名前三的模型依次为：

DeepSeek-V3.1-Terminus-Thinking
openPangu-Ultra-MoE-718B
Qwen3-235B-A22B-Thinking-2507

值得一提的是，SuperCLUE作为业内权威的评测体系，本次测评覆盖数学、科学、编程、智能体行为、幻觉控制及指令遵循六大核心能力，总计1260道高难度测试题，全面检验模型的综合素养。

那么，华为这款参数规模高达7180亿的MoE架构大模型，究竟是如何在强手林立中杀出重围的？

在深入访谈openPangu核心研发团队后，我们发现其制胜之道并非依赖“数据堆砌”的粗放模式，而是走出了一条“以思考驱动智能”的精细化路线。

这背后，究竟藏着怎样的技术逻辑？

从“喂得多”到“喂得精”

众所周知，训练数据的质量直接决定了模型的上限。

为此，openPangu团队在数据构建上确立了三大铁律：质量为先、覆盖多元、难度分层。

他们打造了一套贯穿“生成-筛选-增强”的全链路数据管理体系。

质量为先：建立多层评估机制，融合规则判断、模型打分与人工复核，精准剔除低质、噪声数据。
覆盖多元：从学科领域与任务类型双重维度设计数据结构，并通过智能算法去重压缩，确保知识广度的同时避免信息冗余。
难度分层：通过量化推理步骤、抽象层级与计算复杂度，构建难度评估体系，并采用自迭代拒绝采样技术，重点强化中高阶复杂任务的训练强度。

正是这种对数据“精耕细作”的态度，为模型在复杂推理场景下的稳健表现打下了坚实基础。

三段式预训练：层层递进，夯实根基

模型的强大，离不开扎实的预训练策略。

openPangu-718B采用了“三阶段”渐进式预训练路径：通用认知、深度推理、能力退火。

第一阶段“通用认知”，旨在构建模型的广域知识图谱。通过海量文本与代码的学习，模型建立起对世界的初步理解。

第二阶段“深度推理”，则聚焦逻辑与思维能力的跃升。团队大幅增加数学、STEM与编程类数据比例，并引入多步骤高阶推理题库。

为减少幻觉、提升推理连贯性，团队为这些题目精心设计思维链（CoT）标注，引导模型掌握“解题思路”而不仅是“答案”。

第三阶段“能力退火”，重点在于知识迁移与应用。通过逐步扩展上下文长度至128K，并增加指令类数据比重，模型在长文本理解与任务执行上实现突破。

同时，引入多样化Agent交互数据，为模型掌握工具调用能力埋下伏笔。

对抗幻觉：让模型学会“自我反思”

如何减少“一本正经胡说八道”？openPangu给出了创新解法——“批判内化”机制。

不同于传统仅依赖人类标注反馈的微调方式，该机制让模型在训练后期学会“自我审视”。

通过在拒绝采样过程中注入自我批判信号，模型被训练成不仅能生成答案，更能依据任务准则（Guideline）评估自身推理过程的合理性。

这种内化的批判性思维，使模型在输出时能主动检查逻辑漏洞、信息缺失或指令偏离，显著降低幻觉发生率。

实验证明，该机制不仅提升了回答的可靠性，也增强了指令遵循与价值观对齐能力。

智能体进化：像人类一样“使用工具”

为强化模型的Agent能力，团队推出了升级版工具数据合成框架ToolACE。

该框架通过四大核心技术生成高仿真、多轮次、多工具协同的训练数据：

领域工具联动：将日程、航班、地图等关联工具组合训练，构建工具依赖图谱，教会模型协同调度。
交互式任务规划：采用“先计划后执行”模式，由AI生成工具调用序列，并在模拟环境中执行，形成完整操作轨迹。
多智能体对话模拟：多个AI扮演用户与助手，生成自然对话流，并引入打断、澄清等复杂交互，提升真实感。
多维质量校验：对生成数据进行内容、状态、效率等多维度评估，错误案例反哺优化生成策略。

这套体系让openPangu在复杂任务中展现出接近人类的工具使用灵活性。

三步精调：打磨最后一公里

第一步：渐进动态微调（PDFT）

为防止指令微调阶段的过拟合，团队采用PDFT策略，平滑过渡从标准SFT到动态学习，聚焦薄弱知识点，实现学习效率与泛化能力的平衡。

第二步：强化学习优化

针对MoE模型的训练稳定性挑战，采用GSPO算法进行策略优化，确保强化学习过程不“掉点”，持续提升性能。

第三步：模型融合

通过黑盒优化方法，自动搜索多个候选模型的最佳融合权重，整合各版本优势，产出综合表现最优的最终模型。

纵观openPangu-718B的成功路径，其背后是一整套系统化、精细化的技术布局。

从三段预训练打底，到批判内化控幻觉，再到ToolACE强化Agent能力，最后通过三步精调完成性能跃迁，每一步都彰显对技术本质的深刻理解。

这不仅是一次技术突破，更为整个大模型行业树立了“细节决定成败”的新标杆。

从“喂得多”到“喂得精”

三段式预训练：层层递进，夯实根基

对抗幻觉：让模型学会“自我反思”

智能体进化：像人类一样“使用工具”

三步精调：打磨最后一公里

第一步：渐进动态微调（PDFT）

第二步：强化学习优化

第三步：模型融合

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复