一场源于社交媒体的即兴辩论,最终催生了一项颇具启发性的视觉表征研究。谢赛宁团队最新发布的iREPA工作,其灵感竟可追溯至四个月前他在X平台上与一位网友的技术争鸣。
那位网友坚持认为,自监督学习(SSL)模型若要服务于稠密预测任务——如视觉语言建模(VLM)或表征对齐(REPA),就必须专门针对patch token的空间结构进行优化,而非依赖[CLS] token所承载的全局语义信息。在他看来,局部空间关系才是生成质量的关键。
起初,谢赛宁并不完全认同。他回应称,使用patch token本身并不等同于执行稠密任务;更重要的是,像REPA这类方法的表现往往与ImageNet-1K上的分类准确率高度一致,而与patch层级的细节关联较弱。这背后反映的,其实是高层语义和低层像素结构之间的本质差异。
然而,仅仅三个月后,他的观点发生了转变。新提出的iREPA论文让他意识到,此前的判断仍显浅层。他在社交平台坦言:“扩散模型本质上是表征的渲染引擎。” 这一认知推动他们重新审视:究竟什么才是决定生成效果的核心?
这场公开讨论被他戏称为“网络茶水间效应”的一次真实实验——观点碰撞、思维激荡,最终演化为严谨科研。
为了探明真相,团队展开了一场覆盖27种视觉编码器的大规模实证分析。结果令人意外:某些在ImageNet上表现卓越的模型,例如准确率达82.8%的PE-Core-G,在REPA框架下反而生成效果不佳。更令人深思的是,模型体积增大并未带来生成质量提升,有时甚至出现倒退。
一个典型例证是SAM2-S,其分类准确率仅为24.7%,却在生成任务中超越了诸多高出近60个百分点的强者。进一步实验显示,人为向patch token注入全局信息虽能提升线性探测性能,却显著损害了最终的图像生成质量。
数据清晰地指向一个结论:真正驱动高质量生成的,并非全局语义强弱,而是表征中保留的空间结构完整性。
统计表明,空间结构指标与生成FID的相关性远超传统线性探测准确率,且这一趋势在不同模型尺度下始终保持稳定。
基于此洞察,团队对REPA流程进行了两项简洁而有效的改进。其一,用轻量级卷积投影层替代原有的MLP头。由于MLP会破坏空间拓扑,而卷积操作天然适配网格结构,因此能更完整地传递空间特征。
其二,引入空间归一化机制。该模块通过增强相邻patch间的对比度,主动削弱全局信息干扰,从而突出局部结构差异,助力学生模型更好地捕捉纹理与轮廓细节。
实验证明,iREPA在各类编码器上均实现稳定增益,收敛速度更快,生成质量更高。尤其值得注意的是,模型越大,改进带来的相对收益越显著,展现出良好的可扩展性。
消融研究进一步确认,两个组件各自有效,联合使用则协同增效。无论是在REPA-E还是MeanFlow架构中,空间优化策略都表现出一致的正向影响。
这项工作不仅刷新了人们对表征迁移机制的理解,也再次证明:开放讨论,有时正是科学突破的第一缕光。
