AI在线 AI在线

训练

链式思维是幻象吗?从数据分布视角重新审视大模型推理,马斯克回复,Grok破防

思维链 (CoT) 提示技术常被认为是让大模型分步思考的关键手段,通过在输入中加入「Let’s think step by step」等提示,模型会生成类似人类的中间推理步骤,显著提升复杂任务的表现。 然而,这些流畅的推理链条是否真的反映了模型的推理能力? 亚利桑那州立大学的一项最新研究却发现,CoT 推理可能并不是真正的推理,而更像是对训练数据分布内模式的复现。
8/15/2025 9:03:24 AM

Figure人形机器人首秀灵巧手叠衣服!神经网络架构不变,只增加数据集就搞定

Figure人形机器人首秀,靠神经网络叠衣服! 在没有任何架构改变、仅增加了数据的情况下,就让原本在物流场景干活的它,轻松习得了新技能。 能够看到,在人类拿给他衣服时,不仅有眼神交流,拿完后它点了点头,比了个「点赞」的手势。
8/14/2025 9:09:00 AM

大模型训练新突破!“不对称”训练让AI学会自我反思,推理零开销

首次实现“训练-推理不对称”,字节团队提出全新的语言模型训练方法:Post-Completion Learning (PCL)。 在训练时让模型对自己的输出结果进行反思和评估,推理时却仅输出答案,将反思能力完全内化。 与目前主流的训练方式相比,这一创新方法不仅实现了模型能力的显著提升,更重要的是推理时完全零额外开销。
8/14/2025 9:00:00 AM

GPT-oss太离谱:无提示自行想象编程问题,还重复求解5000次

GPT-oss放飞自我了? ! 居然出现了明显的幻觉行为。
8/12/2025 9:12:00 AM

AI正在掏空大脑,思想沦为残废!未来只分AI的「主人」和「奴隶」

全世界都为AI疯狂。 短短两年内,近10亿人开始用OpenAI的产品。 这正是硅谷的经典套路:把产品做得足够出色,把价格降得足够低廉,让我们彻底上瘾,然后再琢磨如何赚取数十亿美元。
8/11/2025 9:25:00 AM

史上最大高质量科学推理后训练数据集开源,快速让Qwen3等变“科学家”

有史规模最大的开源科学推理后训练数据集来了! 上海创智学院、上海交通大学(GAIR Lab)发布MegaScience。 该数据集包含约125万条问答对及其参考答案,广泛覆盖生物学、化学、计算机科学、经济学、数学、医学、物理学等多个学科领域,旨在为通用人工智能系统的科学推理能力训练与评估提供坚实的数据。
8/11/2025 8:46:00 AM

3B模型性能小钢炮,“AI下半场应该训练+验证两条腿跑步”丨上海AI Lab&澳门大学

当大模型把人类曾经的终极考题变成日常练习,AI的奔跑却悄悄瘸了腿——训练能力突飞猛进,验证答案的本事却成了拖后腿的短板。 为此,上海AI Lab和澳门大学联合发布通用答案验证模型CompassVerifier与评测集VerifierBench。 填补了Verifier领域没有建立验证-提升-验证的循环迭代体系的空白。
8/11/2025 8:35:00 AM

鼠标的未来是手环?解码肌肉信号,Meta黑科技登上Nature

手腕表面肌电图(sEMG)能以侵入式手腕设备感知和解释肌肉激活,并以人机界面的形式作为计算机输入。 这项技术被Meta认为是下一代人机交互的革命性技术。 Meta在2024年已经分享了一系列的肌电信号研究和开源的肌电信号数据集,并发表了技术白皮书,如今这项技术登上了7月24日的Nature。
8/6/2025 9:22:44 AM

科研写作神器,超越Mathpix的科学公式提取工具已开源

LaTeX 公式的光学字符识别(OCR)是科学文献数字化与智能处理的基础环节,尽管该领域取得了一定进展,现有方法在真实科学文献处理时仍面临诸多挑战:其一,主流方法及公开数据集多聚焦于结构简单、符号单一的公式,难以覆盖多学科、高难度的复杂公式;其二,实际文档中广泛存在的多行公式、长公式、分段公式及页面级复杂排版等情况尚未得到充分关注与处理;其三,大多数方法依赖专用模型,通常需要针对特定任务进行专门设计,难以实现通用性和扩展性。 针对上述挑战,DocTron 团队提出了系统性解决方案。 首先,针对现有数据集覆盖面有限、结构单一的问题,构建了涵盖多学科、多结构的大规模高难度数据集 CSFormula,包含行级、段落级和页面级的复杂排版。
8/6/2025 9:13:57 AM

阿里、南开大学发布免训练,视频大模型创新压缩方法

视频模型相比单图像输入需要对每一帧图像单独编码,这种序列化处理方式会导致token数量成倍增长,严重影响模型推理速度与扩展性。 传统的token压缩方法主要依赖于基于注意力机制的筛选,例如FastV、VisionZip、PLLaVA等方法虽然在图像领域取得了一定进展,但在视频理解中却暴露出语义覆盖不足,时序冗余无法处理等一系列问题。 为了解决这些难题,阿里巴巴通义实验室与南开大学计算机科学学院联合发布了创新压缩方法LLaVA-Scissor。
8/4/2025 9:11:07 AM

VLM与扩散模型深度整合,图像理解生成编辑三合一模型登场,权重数据训练流程全开源

VLM和扩散模型被整合到一起了。 ModelScope(魔搭)团队发布Nexus-Gen V2,一个同时支持图像理解、生成和编辑的统一模型,而且模型权重、训练流程和数据集全部开源。 这事儿有多重要?
8/1/2025 2:32:01 PM

科学能力太强,这个多模态推理「六边形战士」被严重低估!Intern-S1开源登顶

在人声鼎沸的WAIC 2025上,一款堪称「全能高手 科学明星」合体的大模型,由于在科学方面太优秀,反倒显得低调——但它的能力却无法被忽视。 它能精准解析分子结构、看懂地震波图、推演化学反应路径……7月26日,上海人工智能实验室(上海AI实验室)发布并开源「书生」科学多模态大模型Intern-S1。 它不仅多模态能力全球开源第一,文本能力比肩国内外一流模型,科学能力全模态达到国际领先。
7/30/2025 9:05:00 AM

Nature子刊 | 上交突破极限,端到端无人机高速避障,可微分物理实现

想象一下:在未知森林、城市废墟甚至障碍密布的室内空间,一群无人机像飞鸟般快速穿梭,不依赖地图、不靠通信、也无需昂贵设备。 这一设想,如今成为现实! 上海交通大学研究团队提出了一种融合无人机物理建模与深度学习的端到端方法,该研究首次将可微分物理训练的策略成功部署到现实机器人中,实现了一套真正意义上的「轻量、可部署、可协同」无人机集群端到端自主导航方案,并在鲁棒性、机动性上大幅领先现有的方案。
7/28/2025 9:18:00 AM

90后养老就靠它?清华系机器人WAIC炫技,叠衣取货秀翻全场

最近,马斯克的「擎天柱卖爆米花」再次让具身智能进入大众视野。 特斯拉主题餐厅最近试营业,Optimus在餐厅上岗,装爆米花的动作娴熟流畅,引得大批人类围观——现在的具身智能,已经进化成这样了吗! 注意看他的眼睛和手,尤其是手中的盒子没有被捏扁变形,「眼睛」还会随着动作向你看来。
7/28/2025 9:16:00 AM

刷新无监督异常检测上限!首提「匹配代价滤波for异常检测」范式 | ICML'25

你是否想过,工厂是如何在很多种不同产品中,精准识别出浅浅的划痕、缺失的元件,甚至是几乎察觉不到的微小缺陷? 这远比「图像识别」要复杂。 在工业质检、安防监控、医疗影像等场景中,无监督异常检测(Unsupervised Anomaly Detection, UAD)日益成为核心技术之一。
7/28/2025 9:03:00 AM

港科大&北京人形提出LOVON:足式机器人开放世界全域目标追踪新范式!

本文一作彭道杰,香港科技大学广州在读博士生;共同一作曹嘉航,北京人形机器人创新中心实习生;共同一作张强香港科技大学广州在读博士生,北京人形机器人创新中心学术委员会主任;通讯导师马骏,香港科技大学广州&香港科技大学助理教授。 在复杂的开放环境中,让足式机器人像人类一样自主完成「先跑到椅子旁,再快速接近行人」这类长程多目标任务,一直是 robotics 领域的棘手难题。 传统方法要么局限于固定目标类别,要么难以应对运动中的视觉抖动、目标丢失等实时挑战,导致机器人在真实场景中常常「迷路」或「认错对象」。
7/25/2025 2:59:51 PM

亿级短视频数据突破具身智能Scaling Law!Being-H0提出VLA训练新范式

如何让机器人从看懂世界,到理解意图,再到做出动作,是具身智能领域当下最受关注的技术重点。 但真机数据的匮乏,正在使对应的视觉-语言-动作(VLA)模型面临发展瓶颈。 尽管业界已投入大量资源构建数据平台(如马斯克主导的“数据工厂”项目),现有真机数据规模仍较模型规模定律所需的上亿级训练样本相差三个数量级。
7/25/2025 9:31:49 AM

马斯克23万GPU训练Grok-这规模让OpenAI都要颤抖

马斯克昨天在X上发了一条消息:"xAI的目标是在5年内部署相当于5000万个H100的AI算力。 "5000万个H100,这什么概念? 我算了一下,这相当于35个核电站的发电量才能供得起。
7/25/2025 9:25:05 AM
阿丸笔记