AI在线 AI在线

推特争论引发学术新发现!谢赛宁团队发布 iREPA,仅需 3 行代码!

最近,谢赛宁团队的新作 “iREPA” 便是源于一场持续了四个月的推特辩论。 这场论战虽以谢赛宁的让步为结局,却意外催生了一篇重要论文,展示了新颖的研究思路。 事件的起源可以追溯到八月份。

最近,谢赛宁团队的新作 “iREPA” 便是源于一场持续了四个月的推特辩论。这场论战虽以谢赛宁的让步为结局,却意外催生了一篇重要论文,展示了新颖的研究思路。

事件的起源可以追溯到八月份。当时,一位网友在推特上提出了关于自监督学习(SSL)模型的看法,认为它们应该专注于稠密任务,因为这些任务依赖于图像的空间和局部信息,而不仅仅是全局分类性能。谢赛宁对此提出了反驳,认为全局性能与稠密任务并没有直接关系。

网友们展开了热烈的讨论,其中一位网友还分享了可以与 REPA 进行比较的方案。这个讨论激发了谢赛宁的兴趣,并促使他深入探索这一问题。几个月后,谢赛宁表示,自己之前的看法被修正,并且这篇论文的研究为理解视觉编码器的生成能力提供了新视角。

在这篇论文中,研究者们探讨了在预训练视觉编码器中,究竟是哪些部分决定了生成模型的表现。结果显示,空间结构的信息,而非全局语义,才是驱动生成质量的关键因素。传统观点认为更好的全局语义信息能提升生成效果,但研究表明,实际上较低准确率的视觉编码器往往能实现更好的生成性能。

为了解决这一问题,研究者们提出了 iREPA,这一新框架仅需三行代码即可整合到任何表示对齐方法中。通过对 PA 的改,如用卷层替换传统的 MLP 投影层,研究者们成功强化了空间结构信息,显著提升了生成性能。

这次学术讨论不仅展示了开放和的科研氛,更强调了通过交流和实验获取知识的重要性。

相关资讯

谢赛宁REPA得到大幅改进,只需不到4行代码

邹忌曾经有一个问题:吾与徐公孰美? 而对于 REPA,也有一个类似的问题:全局信息与空间结构,哪个对表征对齐更重要? 表征对齐(REPA)可通过将强大的预训练视觉编码器的表征蒸馏为中间扩散特征,来指导生成式训练。
12/14/2025 12:16:00 AM
机器之心

智源研究院开源轻量级超长视频理解模型Video-XL-2

近日,智源研究院联合上海交通大学等机构正式发布了一款新一代超长视频理解模型——Video-XL-2。 这一模型的推出标志着长视频理解技术在开源领域取得了重大突破,为多模态大模型在长视频内容理解方面的发展注入了新的活力。 在技术架构方面,Video-XL-2主要由视觉编码器、动态Token合成模块(DTS)以及大语言模型(LLM)三个核心组件构成。
6/3/2025 2:00:54 PM
AI在线

Meta 发布 DINOv3,无需标注数据的通用图像处理 AI 新模型

Meta 近日宣布推出 DINOv3,这是一种无需标注数据的通用图像处理 AI 模型。 该模型基于 17亿张图像进行自监督学习训练,并构建了 70亿个参数,使其能够处理各种图像任务和领域,几乎无需任何调整。 这一特性使得 DINOv3在那些标注数据有限的专业领域,如卫星图像处理,具有尤其重要的应用价值。
8/18/2025 10:32:15 AM
AI在线