AI在线 AI在线

模型

大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%

“边看边画,边画边想”,让大模型掌握空间思考能力,结果直接实现空间推理任务新SOTA。 来自蚂蚁技术研究院自然语言组联合中科院自动化所和香港中文大学开源ViLaSR-7B。 它在包括迷宫导航、静态图像理解和视频空间推理等5个基准上平均提升18.4%。
6/23/2025 8:47:00 AM

蚂蚁开源轻量级MoE推理模型Ring-lite

近日,蚂蚁技术团队宣布正式开源其轻量级推理模型Ring-lite。 该模型在多项推理榜单上取得了显著成绩,实现了轻量级推理模型的SOTA效果,再次验证了MoE架构的推理潜力。 Ring-lite以蚂蚁技术此前发布的Ling-lite-1.5为起点,该模型采用MoE架构,总参数为16.8B,但激活参数仅2.75B。
6/21/2025 5:01:05 PM
AI在线

国产SOTA新模型精准get“画(3+6)条命的动物” | 开源

生成图像这件事,会推理的AI才是好AI。 举个例子,以往要是给AI一句这样的Prompt:(3 6)条命的动物。 我们人类肯定一眼就知道是猫咪,但AI的思考过程却是这样的:△虽然生成了猫,但思考过程不对思考的过程还是把“(3 6)”里的数字分开来处理,并没有真正get到其背后“九条命的动物=猫”的本意。
6/20/2025 2:37:59 PM

AI写完85%的代码!字节研发负责人和TRAE合作的首个项目官宣开源

创造一个AI Coding的产品,再用这个产品来做AI Coding是什么体验? 未来的AI开发范式究竟是什么样子的,开发者 AI能够迸发出多大的创造力? 也许字节跳动研发负责人洪定坤可以帮你回答这个问题。
6/20/2025 10:34:24 AM

Andrej 结合他在斯坦福、OpenAI 和特斯拉的工作经验,洞察到一个转变正在发生——软件正在再次经历变革。

今天凌晨4点30,微软首席执行官SatyaNadella分享了,微软在量子计算的重大技术突破成果4D拓扑量子纠错码。 与2D相比,4D拓扑量子纠错码在编码效率、纠错能力、逻辑操作都非常出色,并且每个逻辑量子比特只需要极少的物理量子比特,可以一次性检查错误,并将错误率降低1000倍。 同时,这项全新的量子计算成果将应用在微软的Azure Quantum量子计算平台中,加速科研、医疗的研发效率网友表示,这标志着一项重大进展,量子纠错长期以来一直是实现稳定、可扩展量子计算的主要瓶颈。
6/20/2025 9:23:53 AM

Andrej Karpathy最新演讲爆火!人类已进入「说话就能编程」的软件3.0时代

回顾 OpenAI 的早期成员,奥特曼成为 AI 浪潮的掌舵人之一,Ilya Sutskever 致力于探索 AI 安全的理想边界,而 Andrej Karpathy 则走上了一条「建造并分享」的道路。 他痴迷于用代码将 AI 蓝图变为现实,又乐此不疲地把建造过程做成公开课分享给世界。 所以,当他人在构建一家伟大的公司时,Karpathy 同时在构建着 AI 应用与下一代的 AI 建设者。
6/20/2025 9:19:19 AM

何恺明CVPR最新讲座PPT上线:走向端到端生成建模

今年的 CVPR 已经在美国田纳西州纳什维尔顺利闭幕。 除了交流论文、互加好友,很多参会者还参加了个非常有意思的项目 —— 追星。 这个「星」自然是学术明星。
6/20/2025 9:14:00 AM

惊天丑闻!OpenAI档案曝光,奥特曼捏造YC董事长身份,虚伪真面目被揭穿

今天,OpenAI发生了不少大事。 比如就在深夜,他们放出了官方博客第一集,奥特曼亲自出镜,透露了GPT-5发布时间——今年夏天。 果然,五花八门的大模型命名,不仅让用户们极为困扰,连OpenAI团队自己都十分纠结。
6/20/2025 9:12:00 AM

AI写爆款博客火出圈,主笔竟是Claude!

最近,Anthropic给自家AI开了个博客。 这个叫「Claude Explain」的博客页面,内容主要由AI模型Claude生成。 博客包括《用Claude简化复杂代码库》这种硬核主题,旨在秀一把AI的写作能力。
6/20/2025 9:06:00 AM

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

近年来,强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力,其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。 如今,这股 RL 的浪潮也涌向了图像生成领域。 当我们将自回归图像生成也视为一种序列化的 CoT 推理过程时,一个核心问题浮出水面:DPO 和 GRPO 在这个新战场上表现如何?
6/20/2025 9:06:00 AM

推荐大模型来了?OneRec论文解读:端到端训练如何同时吃掉效果与成本

人人都绕不开的推荐系统,如今正被注入新的 AI 动能。 随着 AI 领域掀起一场由大型语言模型(LLM)引领的生成式革命,它们凭借着强大的端到端学习能力、海量数据理解能力以及前所未有的内容生成潜力,开始重塑各领域的传统技术栈。 作为互联网流量的核心引擎,推荐系统面临着级联架构导致的算力碎片化、优化目标割裂等问题,并逐渐制约其创新发展。
6/20/2025 9:03:00 AM

美团提出首个语音交互GUI智能体,端到端语音训练能力优于传统文本训练

只需要动动嘴就可以驱动GUI代理? 由美团和浙江大学联合推出的GUIRoboTron-Speech——让用户解放双手,直接对计算机“发号施令”。 这是首个能够直接利用语音指令和设备屏幕截图进行端到端(End-to-End)决策的自主GUI智能体,旨在为用户提供更直接、高效且无障碍的交互体验。
6/20/2025 9:00:00 AM

单应计算加速数十倍、计算量减少95%!基于几何的SKS和ACA矩阵分解被提出

本文由东华大学蔡棽副教授、上海交通大学严骏驰教授和中国科学院自动化所申抒含研究员共同指导并撰写,四名学生作者为东华大学视觉与几何感知实验室的吴展豪、郭凌希、王佳纯、张斯禹。 一、论文简介东华大学、上海交通大学、中科院自动化所的研究团队最新提出:两种基于几何的单应矩阵分解,极大地减少了四点求解单应的计算量(相比目前通用的求解稀疏线性方程组方法减少 95% 以上),可在二维码扫描等典型视觉应用中显著减少计算消耗,并有望应用于其他射影几何、计算机视觉和图形学问题中。 论文已被 IEEE T-PAMI 期刊接收。
6/20/2025 8:55:00 AM

AI哪怕答案正确,逻辑链却惨不忍睹,奥数级不等式证明成功率不到50%| 斯坦福&伯克利&MIT

这不是段子,而是正在发生的现象。 大语言模型解决不等式证明问题时,可以给出正确答案,但大多数时候是靠猜。 推理过程经不起推敲,逻辑完全崩溃。
6/20/2025 8:54:00 AM

田渊栋:连续思维链效率更高,可同时编码多个路径,“叠加态”式并行搜索

AI也有量子叠加态了? 连续思维链的并行搜索类似于量子叠加,比离散型思维链更具优势。 这是AI大牛田渊栋团队的最新研究成果。
6/20/2025 8:47:00 AM

27、42、73,DeepSeek这些大模型竟都喜欢这些数!为什么?

42,这个来自《银河系漫游指南》的「生命、宇宙以及一切问题的终极答案」已经成为一个尽人皆知的数字梗,似乎就连 AI 也格外偏好这个数字。 技术作家 Carlos E. Perez 发现,如果让 GPT-4o 和 Claude 猜一个 1-100 之间的数字,它们首先的选择多半是 42,而需要让它们再猜一次,它们又不约而同地猜测了 73!
6/19/2025 5:36:29 PM

MiniMax AI超级智能体发布!编程/多模态能力突出,MCP工具无缝集成,无需邀请码即可试用

MiniMax第三弹,正式推出AI超级智能体MiniMax Agent。 从专家级多步骤规划,到灵活的任务分解和端到端执行,它设计得像是「一个可靠的队友」。 前天发布的M1模型,你可以用它生成15分钟的速读概述。
6/19/2025 11:51:27 AM

20个样本,搞定多模态思维链!UCSC重磅开源:边画框,边思考

现有开源多模态推理模型(Multimodal Reasoning Model)生成的推理链几乎都是纯自然语言,缺少对图像信息的显式引用与整合。 让多模态大语言模型(MLLM)既能条理清晰的思考,又能真正将推理过程「落到画面」上,在实现上仍然存在两个难点:1. 全是自然语言的思考内容看似很长,其内容有可能脱离图像信息,不一定能真正「看图说话」;2.
6/19/2025 9:15:00 AM