678CHAT AI资讯 Google新论文Titans + MIRAS:让AI也能记住事儿

Google新论文Titans + MIRAS:让AI也能记住事儿

自Transformer架构问世以来,其核心的注意力机制让模型能够动态关注输入序列中的关键部分,极大提升了自然语言处理的表现力。然而,这种能力并非没有代价——随着上下文长度的增长,计算复杂度呈平方级上升,严重制约了模型在超长文本场景下的应用。

近期,Google发布的两项研究成果Titans与MIRAS,为这一难题提供了突破性思路。它们试图融合循环神经网络(RNN)的高效性与Transformer的精准建模优势,构建出具备持续学习能力的新一代序列模型。

Titans代表一种具体实现架构,而MIRAS则是支撑这类模型设计的理论框架。二者共同指向一个核心理念:测试时记忆(test-time memory),即模型在推理过程中能实时吸收新信息,并将其整合进长期知识体系,无需重新训练即可实现自我更新。

MIRAS的关键创新在于将序列建模统一为“如何有效融合新旧信息”的问题。它通过四大组件定义模型行为:内存结构的形式、注意力优化目标、记忆保留策略以及内存更新算法。这一框架不仅解释了现有模型的工作原理,还为设计更优架构提供了系统化路径。

基于MIRAS,研究团队构建了多个无注意力机制的模型变体。例如YAAD采用Huber损失函数降低对异常值的敏感度,在噪声数据中表现更稳健;MONETA则尝试更严格的数学约束以提升学习精度;而MEMORA通过强制内存状态遵循概率守恒原则,确保记忆演进过程稳定可控。

Titans的核心在于引入了一个深度多层感知器作为长期记忆模块。这个模块不仅能压缩海量上下文,更能主动识别并保存跨标记的概念关联。当新输入与当前记忆产生显著偏差时,模型会触发“惊喜指标”,以此作为误差信号驱动记忆更新。该机制配合动量机制追踪连续相关信息,并结合遗忘门控丢弃过时内容,实现了高效且有选择性的知识迭代。

实验结果显示,这些新模型在多项基准测试中超越传统架构。尤其是在BABILong这一考验极长文档推理能力的任务中,Titans即便参数量远少于GPT-4等大模型,依然展现出更强的逻辑连贯性和事实追溯能力。更令人瞩目的是,其上下文窗口已成功扩展至超过200万token,且性能衰减极小。

消融分析进一步证实,加深记忆模块的网络层次可显著降低语言建模困惑度,并带来更好的长度扩展性。这表明,真正的长期记忆能力不仅依赖机制设计,更需要足够的表达容量来支撑复杂语义的沉淀与演化。

这项工作预示着人工智能模型正从静态知识容器向动态认知系统转变。未来,我们或将迎来一批既能快速适应新情境,又能持久积累经验的智能体,真正迈向持续学习的AI新时代。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/21980.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部