AI在线 AI在线

资讯列表

首个全自动AI科学家诞生!西湖大学最新成果:性能超越人类SOTA基线183.7%

DeepScientist团队 投稿. 量子位 | 公众号 QbitAI人类科学家三年的工作量,如今AI两周就能轻松搞定! 最近,来自西湖大学的自然语言处理实验室发布了DeepScientist系统,这也是首个具有完整科研能力,且在无人工干预下,展现出目标导向、持续迭代、渐进式超越人类研究者最先进研究成果的AI科学家系统。
10/8/2025 7:24:27 PM
衡宇

开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题

AI 时代,智能体对短期对话的处理能力已不再是难题。 真正的挑战是让智能体在数百步的探索中依然保持清晰的推理与稳健的决策。 传统的强化学习框架在几十步内尚能应付,但一旦任务延展至数百步,奖励稀疏、历史冗长、策略崩塌便接踵而至。
10/8/2025 7:23:00 PM
机器之心

谷歌加入CUA战场,发布Gemini 2.5 Computer Use:让AI直接操作浏览器

谷歌的 Computer Use 模型来了! 今天凌晨,谷歌 DeepMind 重磅发布了基于 Gemini 2.5 的计算机使用模型 Gemini 2.5 Computer Use。 考虑到前些天谷歌才刚刚发布了 Chrome DevTools (MCP),Gemini 2.5 Computer Use 的诞生倒不是特别让人惊讶。
10/8/2025 7:20:00 PM
机器之心

直击科学计算与设计痛点,跨学科推理统一基座模型SciReasoner来了

作者 | 论文团队编辑 | ScienceAI面对多模态、跨尺度、强约束的科研问题,通用 LLM 正从「工具」升级为「合作者」。 来自上海人工智能实验室等机构的研究团队提出了一款为科学数据「读 — 思 — 设」而生的统一科学基座模型:以更完整的科学数据基座、更系统的训练日程与更可验证的推理机制,直击科学计算与设计痛点。 论文:::::覆盖更广:统一 I/O 与「任务分组奖励」让单一骨干跨化学 / 生命 / 材料等多领域;可验证性更强:从数据标注到思维链再到 RL 奖励全面「科学化」,强调度量统一与工具可复核;工程更到位:明确的数据配比、训练日程与算力规模,保证性能与可复现性。
10/8/2025 3:18:00 PM
ScienceAI

30家Tokens吞金兽,每家烧光万亿Tokens!OpenAI最大客户名单曝光,多邻国上榜

Jay 发自 凹非寺量子位 | 公众号 QbitAI什么AI应用公司和方向是OpenAI看好的? 这不,OpenAI公布了30家Tokens消耗破万亿的“大金主”。 图中,黄色底代表初创公司,紫色底则是已实现规模化的企业,两者在榜单中几乎平分秋色。
10/8/2025 12:37:13 PM
Jay

另一位Yao Shunyu也跳槽了:与Anthropic价值观有根本分歧

衡宇 发自 麦蒿寺. 量子位 | 公众号 QbitAI另一位“尧舜禹”也转会了! 刚刚,谷歌DeepMind迎来一位新研究科学家,他叫姚顺宇——.
10/8/2025 12:29:53 PM
衡宇

AI黑话听不懂?收藏这份3分钟快速扫盲指南!

第一次进 AI 项目组开会,你可能会有这种体验:大家自信满满地聊着——“我们先优化下 RAG系统的延迟,再调人设,顺便做个 A/B test看看效果。 ”而你坐在角落里,内心 OS:别慌,这些所谓的“AI 黑话”,其实就是业内人习惯的专业术语。 听起来玄乎,其实拆开来都挺接地气。
10/8/2025 12:30:05 AM
MoeDesigner

2025诺贝尔物理学奖花落宏观量子隧穿:他们在实验中「造出」了薛定谔的猫

刚刚,本年度的诺贝尔物理学奖得主正式揭晓:美国加州大学 John Clarke、美国耶鲁大学 Michel H. Devoret、美国加州大学 John M. 获奖理由是「发现电路中的宏观量子力学隧穿和能量量子化」。
10/7/2025 8:08:00 PM
机器之心

DeepMind发布代码修复AI智能体CodeMender,实现「被动响应」与「主动防御」一体化

众所周知,开发者「苦软件漏洞久已」,即使使用模糊测试等传统的自动化方法,也难以发现和将其修复,且耗时耗力。 而在 AI 大行其道的当下,用 AI 来修复关键软件漏洞技术与产品也开始涌现,那么,如何才能使得 AI 修复安全代码是值得信任的,答案在于「通过严格的验证」。 近日,DeepMind 最新推出了一种全新的用于代码安全的 AI Agent—CodeMender,它使用 Gemini Deep Think 自动修补关键软件漏洞。
10/7/2025 8:04:00 PM
机器之心

田渊栋与Russell团队联手,证明Transformer能在训练中自然学会叠加推理

对于大型语言模型而言,生成更长、更复杂的推理链,往往意味着巨大的计算成本。 为了解决这一难题,田渊栋团队在 2024 年提出的「连续思维链」 (Coconut) 提供了一种全新的范式,它将推理轨迹保留在连续的隐空间中,而非离散的文字符号。 现在,他们与 Stuart Russell 团队的最新合作研究则从理论上回答了一个核心问题:这种高效的推理范式是如何在训练中自发产生的?
10/7/2025 7:37:00 PM
机器之心

2025诺贝尔物理学奖颁给了谷歌量子计算机打造者

西风 闻乐 发自 凹非寺. 量子位 | 公众号 QbitAI刚刚,诺贝尔物理学奖揭晓! 今年颁给了量子力学领域的三位科学家John Clarke、Michel H.
10/7/2025 7:27:11 PM
闻乐

ChatGPT内嵌App!OpenAI开发者日全览,Agent工具链+应用生态+模型API多箭齐发

西风 发自 凹非寺. 量子位 | 公众号 QbitAIOpenAI开发者日2025,新品发布密度远超往年。 奥特曼带着一系列最新内容来了——.
10/7/2025 12:50:17 PM
西风

刚刚,OpenAI开发者大会重磅发布:AgentKit、Codex正式版、Apps SDK与Sora 2 API

OpenAI 今年的开发者大会(OpenAI DevDay 2025)正在进行中。 Keynote 一开场,山姆・奥特曼便分享了 OpenAI 这两年取得的成绩:400 万开发者、8 亿周活 ChatGPT 用户、API 每分钟 60 亿 token 消耗量。 更重要的是,OpenAI 在今年的开发者大会上可真是发布了不少东西,简单总结起来包括:AgentKit、Codex 正式版、ChatGPT 内置应用与 Apps SDK、gpt-realtime-mini、gpt-image-1-mini、Sora 2 API、GPT-5 pro API。
10/7/2025 10:16:00 AM
机器之心

清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍

清华大学朱军教授团队, NVIDIA Deep Imagination 研究组与斯坦福 Stefano Ermon 团队联合提出了一种全新的扩散模型强化学习(RL)范式 ——Diffusion Negative-aware FineTuning (DiffusionNFT)。 该方法首次突破现有 RL 对扩散模型的基本假设,直接在前向加噪过程(forward process)上进行优化,在彻底摆脱似然估计与特定采样器依赖的同时,显著提升了训练效率与生成质量。 文章共同一作郑凯文和陈华玉为清华大学计算机系博士生。
10/7/2025 10:10:00 AM
机器之心

用四大章节,总结AI智能体交互设计的高频问题

过去一年里我带领我的 UI 小伙伴深耕 AI agent 领域,在人机对话的细节里摸爬滚打,攒下了一些带实战温度的 EXP,趁着有更新的热情分享给大家。 和传统交互不同,AI 智能体的设计处处藏着 “反常识” 的坑:精心设计的表单,使用体验却很割裂;花心思做的图文混排卡片,反而让对话逻辑变得混乱;自以为贴心的预输入提示词,要么被用户忽略,要么限制了真实需求的表达……. 今天我把这些踩过的坑拆解成具体场景 ,希望这些经验能帮 UI 小伙伴少走些弯路,毕竟让 AI 智能体真正 “懂用户、好用、不添乱”,需要在一次次的试错里摸索出更清晰的解决方案。
10/7/2025 12:37:21 AM
MoeDesigner

苹果再发论文:精准定位LLM幻觉,GPT-5、o3都办不到

苹果这几天真是进入了论文高产期,时不时就有新的研究发布出来。 就在近日,苹果又发布了一篇引发学界与业界关注的重磅论文。 这篇论文非常有意思,它用强化学习训练模型,让模型能够准确标出答案中哪些部分是幻觉(hallucinated)。
10/6/2025 6:34:00 PM
机器之心

多个编码智能体同时使用会不会混乱?海外开发者热议

AI 编程工具的进步速度正在迅速加快。 如果各位读者从事涉及代码相关的工作,应该很能察觉到近两年 AI 编程能力的进化幅度,GPT-5 和 Gemini 2.5 等最新前沿大模型已经让开发者在实际任务中一定程度实现了自动化,近期发布的 Sonnet 4.5 又再次推动了这一进展。 再结合现在已经非常成熟 CLI、IDE 工具等的辅助,采用编码智能体进行开发工作已经成为了一种常态,甚至成为了一种新的生活方式。
10/6/2025 6:29:00 PM
机器之心

EMNLP 2025 | CARE:无需外部工具,让大模型原生检索增强推理实现上下文高保真

近日,来自 MetaGPT、蒙特利尔大学和 Mila 研究所、麦吉尔大学、耶鲁大学等机构的研究团队发布 CARE 框架,一个新颖的原生检索增强推理框架,教会 LLM 将推理过程中的上下文事实与模型自身的检索能力有机结合起来。 该框架现已全面开源,包括训练数据集、训练代码、模型 checkpoints 和评估代码,为社区提供一套完整的、可复现工作。 项目主页::: & 数据集:“外部搜索”到“原生检索”的转变1、现有方法的困境目前解决上下文保真度问题主要有两条路:1.
10/6/2025 6:22:00 PM
机器之心