AI在线 AI在线

训练

Andrej Karpathy再次看衰强化学习:奖励函数非常可疑,RL环境才是最重要的

AK再次看衰RL本身,当然指的是长期来看刚刚Prime Intellect公司开源了一个叫Environments Hub的平台,简单来说Environments Hub是一个开源的的强化学习环境(RL environments)平台,强化学习环境被认为是下一波人工智能进步的关键瓶颈,但大型实验室正在将其锁定环境是Agent学习的地方,它们定义了世界、规则以及状态 → 动作 → 奖励的反馈循环。 从编程/数学任务到游戏和多轮对话评估,一切都可以被视为环境。 没有它们,强化学习就只是数学,没有任何交互可言详细内容看这里:,以下是AK的观点:在预训练(pretraining)时代,最重要的是互联网文本。
8/29/2025 9:01:40 AM

小扎噩梦来了!MSL两月爆雷8人闪辞,PyTorch元老出走实验室人心崩盘

小扎AI大计还未真正开始,就要凉凉了? 继昨日曝出三人闪辞Meta之后,又一位「超级智能实验室」(MSL)老将官宣离职。 PyTorch核心开发者,现MSL预/后训练工程师——Rohan Varma,在入职Meta六年后,决定离开了。
8/28/2025 3:29:43 PM

教AI「择偶生娃」,复刻自然演化!上交校友提名最佳论文

如果让AI模型像生物一样演化,它们会不会彼此竞争、协作、结合,并繁衍出越来越强的后代? 「物竞天择,适者生存」的进化论思想,是否也适用于AI模型? 就在最近,Sakana AI从自然演化的过程中汲取灵感,提出了一种利用「竞争与吸引力」的自然选择机制,来提升AI模型融合效果的方法。
8/27/2025 9:07:00 AM

喜当爹后,奥特曼自曝神经化学骤变!养娃能为人类做出更优AI决策

OpenAI CEO奥特曼在最近的一次采访中表示,自己成为父亲后,优先事项完全发生了改变。 他坦言,父亲身份「彻底重塑了我的所有优先事项」。 这一变化不仅让他在个人生活中获得了更深刻的感悟,更重要的是也可能会影响他在人工智能领域的决策。
8/25/2025 9:15:00 AM

波士顿动力机器人终于有脑子了!人类故意使绊子也不怕

波士顿动力也搞端到端AI了! 这次升级,Atlas不仅可以听懂自然语言指令,还可以自主规划动作和处理意外。 只见小哥故意合上盖子,机器人仍能识别并打开箱子。
8/22/2025 3:14:27 PM

超越RAG和DAPT!华人团队新研究引热议:即插即用、无需改变原参即可让模型化身领域专家

一个小解码器让所有模型当上领域专家! 华人团队新研究正在引起热议。 他们提出了一种比目前业界主流采用的DAPT(领域自适应预训练)和RAG(检索增强生成)更方便、且成本更低的方法。
8/19/2025 9:12:00 AM

链式思维是幻象吗?从数据分布视角重新审视大模型推理,马斯克回复,Grok破防

思维链 (CoT) 提示技术常被认为是让大模型分步思考的关键手段,通过在输入中加入「Let’s think step by step」等提示,模型会生成类似人类的中间推理步骤,显著提升复杂任务的表现。 然而,这些流畅的推理链条是否真的反映了模型的推理能力? 亚利桑那州立大学的一项最新研究却发现,CoT 推理可能并不是真正的推理,而更像是对训练数据分布内模式的复现。
8/15/2025 9:03:24 AM

Figure人形机器人首秀灵巧手叠衣服!神经网络架构不变,只增加数据集就搞定

Figure人形机器人首秀,靠神经网络叠衣服! 在没有任何架构改变、仅增加了数据的情况下,就让原本在物流场景干活的它,轻松习得了新技能。 能够看到,在人类拿给他衣服时,不仅有眼神交流,拿完后它点了点头,比了个「点赞」的手势。
8/14/2025 9:09:00 AM

大模型训练新突破!“不对称”训练让AI学会自我反思,推理零开销

首次实现“训练-推理不对称”,字节团队提出全新的语言模型训练方法:Post-Completion Learning (PCL)。 在训练时让模型对自己的输出结果进行反思和评估,推理时却仅输出答案,将反思能力完全内化。 与目前主流的训练方式相比,这一创新方法不仅实现了模型能力的显著提升,更重要的是推理时完全零额外开销。
8/14/2025 9:00:00 AM

GPT-oss太离谱:无提示自行想象编程问题,还重复求解5000次

GPT-oss放飞自我了? ! 居然出现了明显的幻觉行为。
8/12/2025 9:12:00 AM

AI正在掏空大脑,思想沦为残废!未来只分AI的「主人」和「奴隶」

全世界都为AI疯狂。 短短两年内,近10亿人开始用OpenAI的产品。 这正是硅谷的经典套路:把产品做得足够出色,把价格降得足够低廉,让我们彻底上瘾,然后再琢磨如何赚取数十亿美元。
8/11/2025 9:25:00 AM

史上最大高质量科学推理后训练数据集开源,快速让Qwen3等变“科学家”

有史规模最大的开源科学推理后训练数据集来了! 上海创智学院、上海交通大学(GAIR Lab)发布MegaScience。 该数据集包含约125万条问答对及其参考答案,广泛覆盖生物学、化学、计算机科学、经济学、数学、医学、物理学等多个学科领域,旨在为通用人工智能系统的科学推理能力训练与评估提供坚实的数据。
8/11/2025 8:46:00 AM

3B模型性能小钢炮,“AI下半场应该训练+验证两条腿跑步”丨上海AI Lab&澳门大学

当大模型把人类曾经的终极考题变成日常练习,AI的奔跑却悄悄瘸了腿——训练能力突飞猛进,验证答案的本事却成了拖后腿的短板。 为此,上海AI Lab和澳门大学联合发布通用答案验证模型CompassVerifier与评测集VerifierBench。 填补了Verifier领域没有建立验证-提升-验证的循环迭代体系的空白。
8/11/2025 8:35:00 AM

鼠标的未来是手环?解码肌肉信号,Meta黑科技登上Nature

手腕表面肌电图(sEMG)能以侵入式手腕设备感知和解释肌肉激活,并以人机界面的形式作为计算机输入。 这项技术被Meta认为是下一代人机交互的革命性技术。 Meta在2024年已经分享了一系列的肌电信号研究和开源的肌电信号数据集,并发表了技术白皮书,如今这项技术登上了7月24日的Nature。
8/6/2025 9:22:44 AM

科研写作神器,超越Mathpix的科学公式提取工具已开源

LaTeX 公式的光学字符识别(OCR)是科学文献数字化与智能处理的基础环节,尽管该领域取得了一定进展,现有方法在真实科学文献处理时仍面临诸多挑战:其一,主流方法及公开数据集多聚焦于结构简单、符号单一的公式,难以覆盖多学科、高难度的复杂公式;其二,实际文档中广泛存在的多行公式、长公式、分段公式及页面级复杂排版等情况尚未得到充分关注与处理;其三,大多数方法依赖专用模型,通常需要针对特定任务进行专门设计,难以实现通用性和扩展性。 针对上述挑战,DocTron 团队提出了系统性解决方案。 首先,针对现有数据集覆盖面有限、结构单一的问题,构建了涵盖多学科、多结构的大规模高难度数据集 CSFormula,包含行级、段落级和页面级的复杂排版。
8/6/2025 9:13:57 AM

阿里、南开大学发布免训练,视频大模型创新压缩方法

视频模型相比单图像输入需要对每一帧图像单独编码,这种序列化处理方式会导致token数量成倍增长,严重影响模型推理速度与扩展性。 传统的token压缩方法主要依赖于基于注意力机制的筛选,例如FastV、VisionZip、PLLaVA等方法虽然在图像领域取得了一定进展,但在视频理解中却暴露出语义覆盖不足,时序冗余无法处理等一系列问题。 为了解决这些难题,阿里巴巴通义实验室与南开大学计算机科学学院联合发布了创新压缩方法LLaVA-Scissor。
8/4/2025 9:11:07 AM

VLM与扩散模型深度整合,图像理解生成编辑三合一模型登场,权重数据训练流程全开源

VLM和扩散模型被整合到一起了。 ModelScope(魔搭)团队发布Nexus-Gen V2,一个同时支持图像理解、生成和编辑的统一模型,而且模型权重、训练流程和数据集全部开源。 这事儿有多重要?
8/1/2025 2:32:01 PM

科学能力太强,这个多模态推理「六边形战士」被严重低估!Intern-S1开源登顶

在人声鼎沸的WAIC 2025上,一款堪称「全能高手 科学明星」合体的大模型,由于在科学方面太优秀,反倒显得低调——但它的能力却无法被忽视。 它能精准解析分子结构、看懂地震波图、推演化学反应路径……7月26日,上海人工智能实验室(上海AI实验室)发布并开源「书生」科学多模态大模型Intern-S1。 它不仅多模态能力全球开源第一,文本能力比肩国内外一流模型,科学能力全模态达到国际领先。
7/30/2025 9:05:00 AM