Meta搞了个新招，能省大模型算力钱还不掉链子

在人工智能推理技术迎来关键突破的当下，Meta AI携手加州大学圣地亚哥分校（UCSD）发布了一项名为Deep Think with Confidence（简称DeepConf）的创新方法，旨在破解大语言模型（LLM）在复杂任务中算力消耗巨大与准确率难以兼顾的难题。该技术为LLM推理效率的优化提供了全新的解决路径，尤其适用于企业级高负载应用场景。

目前，主流的提升LLM推理精度方式多依赖“多次采样+多数表决”机制，即通过生成大量推理路径后进行投票决策。然而，这种策略往往导致计算资源呈指数级增长，且大量低质量或错误的推理链反而可能误导最终判断。DeepConf的核心突破在于引入了动态置信度评估机制，不再对所有推理路径平等对待，而是依据模型内部生成过程中的“信心水平”进行智能筛选与加权，从而在源头上过滤掉不可靠的思考路径。

为了实现精准评估，DeepConf设计了一套多维度的置信度指标体系：

组置信度（Group Confidence）：衡量推理过程中特定token序列的平均可信程度；
尾部置信度（Tail Confidence）：重点关注推理结论阶段的稳定性，避免“虎头蛇尾”式错误；
最低组置信度（Lowest Group Confidence）：识别整条推理链中最薄弱的环节，作为整体可信度的“短板”依据；
底部百分位置信度（Bottom-10% Confidence）：聚焦最不确定的10%内容，强化对模糊推理的识别能力。

基于上述机制，DeepConf支持两种灵活的运行模式：

离线模式（Offline Thinking）：先批量生成多条完整推理路径，再依据置信度评分进行筛选或加权表决，提升最终输出的可靠性；
在线模式（Online Thinking）：在推理生成过程中实时监控置信度，一旦发现当前路径“信心”不足，立即中止该分支，避免资源浪费。

在多个权威测试集（如AIME、HMMT、GPQA-Diamond等）和主流模型（包括DeepSeek-8B、Qwen3-32B、GPT-OSS-120B）上的实验表明，DeepConf性能卓越：

在AIME2025任务中，GPT-OSS-120B采用离线模式实现了99.9%的惊人准确率，同时token生成量比传统方法减少了84.7%；
在AIME24任务中，在线模式下的DeepSeek-8B不仅准确率提升了5.8个百分点，token消耗更降低了77.9%。

为满足不同行业需求，DeepConf提供可配置的策略模式：

DeepConf-high（保守模式）：侧重稳定性，可节省约50%的计算成本，适用于金融风控、法律文书等高敏感领域；
DeepConf-low（激进模式）：追求极致效率，最高可减少70%–85%的token使用，适合知识检索、草稿生成等对容错率要求较低的场景。

尤为关键的是，DeepConf无需对原有模型进行重新训练，仅需在推理阶段加入轻量级逻辑判断，即可实现高效集成。其兼容性极强，已支持vLLM、SGLang、TensorRT-LLM等主流推理框架。研究团队强调，这一技术如同为LLM推理系统安装了一个“智能节流阀”，实现了性能与成本的最优平衡。随着企业AI部署日益深入，DeepConf有望成为大模型落地应用的标配工具之一。

论文:https://arxiv.org/abs/2508.15260

划重点:

🧠 置信度导向选择:DeepConf 基于局部置信度（组、尾部、最低点等）筛选或权重排序推理路径，而非一刀切多数投票。
⏱ 显著提升效率:达到最高99.9% 的推理准确率，同时减少生成 token 多达84.7%。
️🎛 可调节策略模式:企业可按风险偏好选择「高安全性」或「高效率」模式，用最少资源获取最优结果。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复