英伟达推新招 TiDAR：一步吐多个 Token，AI 速度飙涨近6倍

12月2日，知名科技媒体 Tom's Hardware 发布最新报道，披露英伟达在一篇研究论文中提出了一种名为 TiDAR 的创新 AI 解码架构。该方法巧妙融合了自回归（Autoregressive）与扩散（Diffusion）两种主流生成机制，旨在利用 GPU 推理过程中未被充分利用的“空闲槽位”，显著提升文本生成效率。

传统自回归模型的工作方式类似于文字接龙——必须逐字预测，每生成一个 Token（词元），都依赖于前序所有内容。这种方式虽然稳定可靠，但速度受限，尤其在长文本生成场景下延迟明显。

而扩散模型原本多用于图像生成领域，其核心思路是通过逐步“去噪”还原出清晰内容。在 TiDAR 中，研究人员将其引入语言建模，用以并行“猜测”多个潜在的后续词元，为后续筛选提供候选池。

当前主流大语言模型普遍采用逐 Token 生成策略，这不仅带来较高的计算开销，也限制了响应速度。TiDAR 的突破点在于，它尝试在单次推理步骤中产出多个 Token，同时保持输出质量不受影响，从而有效缩短 GPU 占用时间、提升整体吞吐能力。

技术实现上，TiDAR 并非简单拼接两种模型，而是训练单一 Transformer 架构同时承担两项任务：一方面执行标准的自回归“下一词预测”，另一方面通过扩散机制进行“并行草拟”。这种双头设计避免了传统投机解码（Speculative Decoding）对额外小模型的依赖——后者通常需先由轻量模型快速起草一段文本，再交由主模型校验修正。

TiDAR 则在同一模型内部完成起草与验证。其关键在于引入一种结构化的注意力掩码（Attention Mask），将输入序列划分为三个逻辑区域：已确认的前缀区、待验证的草案区，以及用于扩散生成的新起草区。这种分区机制不仅保障了生成过程的连贯性，还维持了 KV 缓存（KV Cache）的有效组织，解决了以往扩散式解码器在部署时常见的缓存管理难题。

研究团队基于阿里巴巴开源的 Qwen 系列模型展开实验。结果显示，在 HumanEval 和 GSM8K 等权威基准测试中，TiDAR 版本的准确率与原始模型相当，甚至略有提升。性能方面更是表现亮眼：15 亿参数规模的 TiDAR 模型实现了 4.71 倍的吞吐量加速；而在 80 亿参数版本上，这一数字跃升至 5.91 倍，远超 Qwen3-8B 基准。这意味着在不增加显存数据搬运负担的前提下，TiDAR 能更高效地榨取 GPU 显存带宽潜力。

尽管成果令人振奋，Tom's Hardware 也指出，TiDAR 目前仍处于早期验证阶段。所有实验均基于 80 亿参数以下的中小模型，且未采用定制化内核优化（如 fused kernels），仅运行于标准 PyTorch 环境。随着模型规模和上下文长度持续扩大，计算密度可能趋于饱和，进而削弱多 Token 并行带来的边际效益。研究团队表示，下一步将把 TiDAR 应用于更大规模的语言模型，以评估其在云端高负载 AI 服务中的实际部署价值。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复