AI在线 AI在线

模型

突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

余天予,清华大学计算机系一年级博士生,导师为清华大学自然语言处理实验室刘知远副教授。 研究兴趣主要包括高效多模态大模型、多模态大模型对齐和强化学习,在 CVPR、AAAI等人工智能领域的著名国际会议和期刊发表多篇学术论文,谷歌学术引用1000余次。 Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward,基于可验证奖励的强化学习)的巨大潜力。
6/27/2025 10:10:43 AM

超过GPT-image-1!大黑马Black Forest刚开源新模型,只用文本实现一键PS

今天凌晨,知名开源平台Black Forest开源了,文生图模型FLUX.1-Kontext的开发者版本。 该版本主要专注于图像编辑任务,支持迭代编辑,在各种场景和环境中都能出色地保留角色特征,还允许进行精确的局部和全局编辑,例如,用户想给一个人脸加上胡子或者更改衣服穿着、场景,FLUX.1-Kontext都能轻松实现。 简单来说,FLUX.1-Kontext开发版的主要功能可以像PS一样,让用户通过自然语言就能实现一键P图。
6/27/2025 9:26:50 AM

3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%

近年来,视觉-语言-动作(VLA)模型在机器人操作任务中大放异彩,成为推动通用机器人操作的重要引擎。 但现有的VLA模型,大多只以2D信息作为输入,且需要大量的机器人数据进行微调;反观以PerAct,RVT-2为代表的3D操作策略,通常仅需要10条轨迹就能够取得不错的效果,因此,一个很自然的想法是,是否能将现有的2D VLA升级为3D VLA,使其同时兼具2D VLA的效果以及3D操作策略的效率? 中科院自动化所的研究人员提出的BridgeVLA给出了肯定的回答!
6/27/2025 9:10:17 AM

谷歌AlphaGenome横空出世!40亿年生命代码一键破解,或再夺诺奖

基因组,宛如生命的蓝图,藏在我们每一个细胞之中。 这套完整的DNA指令集,主导着生命体从外观功能到生长繁殖的几乎每一个方面,甚至是对疾病抵御的能力。 2003年,人类基因组测序完成,让人类首次窥见了DNA的全貌。
6/27/2025 8:56:51 AM

人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展

本文由中国人民大学高瓴人工智能学院李崇轩团队和字节跳动Seed团队共同完成。 第一作者郑晨宇是中国人民大学高瓴人工智能学院二年级博士生,主要研究方向为基础模型的优化、泛化和可扩展性理论,导师为李崇轩副教授,论文为其在字节跳动Seed实习期间完成。 第二作者张新雨是字节跳动研究员,主要研究方向为视觉生成模型。
6/27/2025 8:50:40 AM

北大发布学术搜索评测ScholarSearch:难倒一众DeepResearch的“开卷考试”

LLMs能当科研助手了? 北大出考题,结果显示:现有模型都不能胜任。 北京大学DS-Lab发布ScholarSearch,这是首个专门用于评估大语言模型在学术研究中复杂信息检索能力的数据集,包含223道高难度的学术检索题目及其答案。
6/27/2025 8:47:12 AM

Nature报道:谷歌新模型1秒读懂DNA变异!首次统一基因组全任务,性能碾压现有模型

谷歌DeepMind Alpha家族又双叒登上Nature报道,这次瞄准的是DNA变异。 现在只需1秒,就能精确定位基因组序列变异。 据Nature最新报道,谷歌DeepMind团队目前推出了突破性生物模型AlphaGenome。
6/27/2025 8:45:31 AM

推理越多,幻觉越重?多模态推理模型的「幻觉悖论」

在多模态大模型的飞速发展中,R1 系列多模态推理模型凭借显式的长链推理机制,在复杂任务中屡屡突破传统「快思考」范式的性能瓶颈。 然而,研究发现,随着推理链条的加长,这类模型的视觉感知能力却呈现出明显下滑的趋势,逐渐转而依赖语言先验进行「脑补」,生成内容也越来越容易脱离图像本身,甚至出现凭空捏造的幻觉现象。 这一「推理增强—感知削弱」的悖论,凸显了当前多模态推理模型在推理能力与感知准确性之间面临的平衡挑战。
6/27/2025 8:40:00 AM

全模态RAG突破文本局限,港大构建跨模态一体化系统

突破传统检索增强生成(RAG)技术的单一文本局限,实现对文档中文字、图表、表格、公式等复杂内容的统一智能理解。 香港大学黄超教授团队开源多模态智能处理系统RAG-Anything,将碎片化的信息孤岛转化为结构化的知识网络,为智能多模态文档分析开辟了全新技术路径。 RAG-Anything 是专门针对复杂多模态文档设计的新一代RAG系统,致力于破解现代信息处理中的多模态理解难题。
6/26/2025 3:11:41 PM

AI“读书”合法了:美法院最新裁定,无需作者同意,已购书籍可用于训练AI

无需原作者同意,AI可以用已出版书籍作训练数据了。 就在最新判决的诉讼中,美国法院裁决:允许Claude背后公司Anthropic在未经作者许可的情况下,使用合法购买的已出版书籍训练AI。 法院参考了美国版权法中的“合理使用”(Fair Use)原则,认为AI训练属于“转化性使用”(Transformative Use),即对原作品的新用途未取代原作市场,且有利于技术创新和公共利益。
6/26/2025 3:09:07 PM

刚刚,OpenAI苏黎世办公室被Meta一锅端,三名ViT作者被挖走

刚刚,华尔街日报发布了一份独家报道,称去年底刚刚组建的 OpenAI 苏黎世办公室基本被 Meta 一锅端走了。 具体来说,Meta CEO 马克・扎克伯格挖走了 Lucas Beyer、Alexander Kolesnikov 和 Xiaohua Zhai(翟晓华)三位研究者。 这三人一直以来都是密切的合作伙伴,共同参与了 ViT 等重要研究。
6/26/2025 3:07:54 PM

具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习

近年来,随着人工智能从感知智能向决策智能演进,世界模型 (World Models)逐渐成为机器人领域的重要研究方向。 世界模型旨在让智能体对环境进行建模并预测未来状态,从而实现更高效的规划与决策。 与此同时,具身数据也迎来了爆发式关注。
6/26/2025 3:06:47 PM

AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

如果有人突然问你:「这张图片中有几颗草莓」? 你会如何快速回复? 面对五彩缤纷的果盘,我们往往需要反复端详,放大图片再逐一清点,耗费不少时间才能得到答案。
6/26/2025 3:05:45 PM

继AlphaFold之后,DeepMind再放“大招”:AlphaGenome直击疾病根源

谷歌今天一口气放出两个王炸,一个对标Claude Code 和 Cursor的开源编程神器Gemini CLI,另一个就是AlphaGenome,专门用来精准预测基因变异。 谷歌DeepMind宣布推出一款名为AlphaGenome的全新人工智能(AI)模型。 该模型旨在更深入、更准确地理解基因组,通过预测DNA序列的微小变化如何影响复杂的基因调控过程,为疾病研究、基因治疗和基础生命科学开辟了新的可能性。
6/26/2025 10:08:34 AM

谷歌AI Agent刚开源!多任务智能体+MCP+谷歌搜索,狂揽9000颗星

今天凌晨,谷歌在官网开源了AI Agent框架Gemini CLI,直接将Gemini大模型融入到终端中。 Gemini CLI最大亮点之一就是可以直接调用,谷歌最新发布的视频模型 Veo和图像模型Imagen,同时集成了MCP、谷歌搜索、自定义自动化等众多实用功能。 开源地址:,用Gemini CLI自动制作一个短视频,展示一只姜猫在澳大利亚的冒险故事。
6/26/2025 10:07:11 AM

让多模态大模型「想明白再画」!港大等开源GoT-R1:强化学习解锁视觉生成推理新范式

当前,多模态大模型在根据复杂文本提示生成高保真、语义一致的图像方面取得了显著进展,但在处理包含精确空间关系、多对象属性及复杂组合的指令时,仍面临挑战。 针对此,来自香港大学 MMLab、香港中文大学 MMLab 和商汤科技的研究团队,继其先前发布的 Generation Chain-of-Thought (GoT) 框架之后,现推出重要进展 ——GoT-R1。 该新框架通过引入强化学习,显著增强了多模态大模型在视觉生成任务中的语义 - 空间推理能力,使其能够超越预定义模板,自主探索和学习更优的推理策略。
6/26/2025 9:13:22 AM

8B模型可以超过GPT-4o!并行KV Cache压缩支持的128K长度外推方法ParallelComp

作者熊璟,香港大学一年级博士生,师从黄毅教授和孔令鹏教授。 已在 ICLR、ICML、NeurIPS、ACL、EMNLP、TMLR等顶级会议/期刊发表论文,研究方向为高效大语言模型推理与自动定理证明。 担任NAACL、EMNLP、ACL、ICML、ICLR、NeurIPS、COLING等会议审稿人。
6/26/2025 9:09:31 AM

何恺明新身份:谷歌DeepMind杰出科学家

刚刚,有网友爆料,自己在公司收到了「欢迎何恺明加入」的邮件,何恺明疑似加入谷歌。 在搜索何恺明个人主页后,我们可以确认,他确实加入了谷歌,不过是以兼职的形式,职位是谷歌 DeepMind 杰出科学家 (Distinguished Scientist)。 个人主页:,目前还搜不到详细信息。
6/26/2025 8:56:59 AM