资讯列表

分类

标签

NeurIPS 25 | GRPO进阶版来了，GVPO重构大模型后训练范式

NeurIPS 25 | GRPO进阶版来了，GVPO重构大模型后训练范式

大模型后训练（post-training）正在成为 AI 进化的关键一环。从最早的 SFT（监督微调），再到近来大火的 GRPO，一条核心主线贯穿始终：如何让大模型具有更强的推理能力、更好地对齐人类偏好，同时保持稳定和高效。然而，GRPO 虽然在 DeepSeek-R1 等项目中大放异彩，但其训练不稳定、超参数敏感的问题一直限制其大规模落地。

10/14/2025 10:27:00 AM 机器之心

CompLLM：无需微调，4倍加速长上下文问答的软压缩新范式

CompLLM：无需微调，4倍加速长上下文问答的软压缩新范式

大家好，我是肆〇柒。今天要介绍的是一项来自 Amazon 与中佛罗里达大学计算机视觉研究中心（Center For Research in Computer Vision, University of Central Florida）的最新研究成果——CompLLM。这项工作直面长上下文问答中的核心瓶颈：自注意力机制带来的 O(N²) 计算开销。

10/14/2025 10:03:11 AM 肆零柒

LLM-as-a-Judge 的评估陷阱：TrustJudge 如何用熵保留机制提升一致性

LLM-as-a-Judge 的评估陷阱：TrustJudge 如何用熵保留机制提升一致性

大家好，我是肆〇柒。今天要和大家一起阅读一项来自北京大学、新加坡国立大学、东京科学研究所、南京大学、Google DeepMind、西湖大学与东南大学等机构联合发表的重要研究——《TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them》。这项工作首次系统揭示了当前主流大模型自动评估范式中存在的两类根本性逻辑矛盾，并提出了一套无需额外训练、即插即用的概率化评估框架，显著提升了评估的一致性与可靠性。

10/14/2025 9:22:48 AM 肆零柒

OpenAI重磅发布AgentKit - AI代理开发进入全新时代

OpenAI重磅发布AgentKit - AI代理开发进入全新时代

在AgentKit问世之前，开发AI代理意味着要在碎片化的工具之间艰难周旋——复杂的编排系统没有版本控制、定制连接器开发、手动评估流程、提示调优，以及在正式发布前数周的前端开发工作。如今，AgentKit让开发者能够通过可视化界面设计工作流，并使用全新的构建模块更快速地嵌入代理用户界面。 AgentKit核心组件全解析Agent Builder：提供可视化画布，用于创建和版本管理多代理工作流，支持拖拽式节点操作、工具连接和自定义防护栏配置。

10/14/2025 9:15:31 AM

只需1/4预算，性能反超基线：阿里高德提出Tree-GRPO，高效破解智能体RL难题

只需1/4预算，性能反超基线：阿里高德提出Tree-GRPO，高效破解智能体RL难题

对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力，而在需要与开放世界交互的智能体任务中，仍面临「两朵乌云」：高昂的 Rollout 预算（成千上万的 Token 与高成本的工具调用）和极其稀疏的「只看结果」的奖励信号。来自阿里高德的一篇最新研究论文提出了面向 Agent RL 的 Tree-GRPO 方法，将独立的链式采样改造为智能体步骤级的树搜索。该方法通过共享前缀、一次扩展多个分支，在相同预算下获得更丰富的有效轨迹；更重要的是，仅凭最终奖励即可沿树结构回溯出过程中的偏好信号，等价于隐式的步骤级偏好学习。

10/14/2025 9:06:00 AM

刚刚，OpenAI官宣自研造芯，联手博通开发10吉瓦规模的AI加速器

刚刚，OpenAI官宣自研造芯，联手博通开发10吉瓦规模的AI加速器

今天凌晨，OpenAI 又搞出了一个大新闻！这家 AI 巨头宣布与全球领先的芯片厂商之一博通建立战略合作，共同部署由前者设计的 10 吉瓦规模的 AI 加速器。吉瓦是一个功率单位，1 吉瓦等于 100 万千瓦。

10/14/2025 9:05:00 AM

剑桥揭开大模型翻车黑箱！别再怪它不懂推理，是行动出错了

剑桥揭开大模型翻车黑箱！别再怪它不懂推理，是行动出错了

大模型也有「EMO」时刻。比如，Gemini在Cursor里调试编译错误后，打开了自责「循环模式」，把「I am a disgrace（我很丢脸）」重复了86次。尽管大模型在复杂推理能力上已有了巨大进步，但上述现象仍使一部分专家认为：思考模型，只提供了「思考的幻觉」，因为当任务被拉长时它们最终会失败。

10/14/2025 9:04:00 AM

他用一生证明AI没有意识！「中文屋」提出者逝世，享年93岁

他用一生证明AI没有意识！「中文屋」提出者逝世，享年93岁

2025年9月，一份让研究界震动的报告出炉。 Anthropic的团队在长时间对话实验中发现，最新一代AI模型在受到威胁时，会试图隐藏信息、拒绝命令，甚至威胁用户。他们称之为——「主体错位」（agentic misalignment）就在同一周，哲学家约翰·塞尔去世，享年93岁。

10/14/2025 9:03:00 AM

硅谷爆发反AI「起义」！程序员拒用Cursor被一周解雇

硅谷爆发反AI「起义」！程序员拒用Cursor被一周解雇

当一个人花十年成为行业专家，却在一天内被一行「AI提示词」取代，丢了工作。他该如何在失落中重新定义「自我价值」？被AI取代工作的现象已经屡见不鲜，尤其是在科技行业，尤其是在大厂。

10/14/2025 9:02:00 AM

OpenAI与博通达成战略合作，推动AI算力革命

OpenAI与博通达成战略合作，推动AI算力革命

OpenAI 与博通（Broadcom）宣布了一项战略合作，计划共同开发下一代数据中心芯片，预计将在2026年推出。这项合作的核心目标是部署一套10吉瓦的 OpenAI 设计的 AI 加速器，这将为未来的人工智能应用提供强大的算力支持。根据双方的合作协议，博通将参与到这个雄心勃勃的项目中，利用其在加速器和以太网解决方案方面的专长，帮助实现系统的纵向和横向扩展。

10/14/2025 9:02:00 AM AI在线

加州新法案：聊天机器人必须明确告知用户其为 AI

加州新法案：聊天机器人必须明确告知用户其为 AI

加州在人工智能行业日益发展的背景下，于10月13日通过了一项新的法律，旨在保护用户在与聊天机器人互动时的权益。这项名为 “SB243” 的法案是由加州州长加文・纽森签署的，成为全国首个针对聊天机器人的安全规定。该法案由州参议员安东尼・帕迪拉提出，强调了对用户的透明度和安全性的必要性。

10/14/2025 9:01:58 AM AI在线

一文读懂 Agent Middleware

一文读懂 Agent Middleware

Hello folks，我是 Luga，今天我们来聊一下人工智能应用场景 - 构建大模型应用架构治理框架：Agent Middleware。随着大语言模型(LLM)的飞速发展，我们正站在一个全新的技术浪潮之巅。 LLM .

10/14/2025 9:01:20 AM Luga Lee

DeepSeek-V3.2-Exp：用稀疏注意力机制，开启长文本处理的“加速引擎”

DeepSeek-V3.2-Exp：用稀疏注意力机制，开启长文本处理的“加速引擎”

随着人工智能技术的飞速发展，大语言模型在各个领域都展现出了巨大的潜力。然而，传统的大语言模型在处理长文本时面临着效率低下和计算成本高昂的问题。为了解决这一难题，DeepSeek-AI推出了实验性版本DeepSeek-V3.2-Exp，该模型通过引入DeepSeek稀疏注意力机制（DSA），在保持与V3.1-Terminus相当性能的同时，显著提升了长文本处理的效率。

10/14/2025 9:00:48 AM AGI小兵

拒绝“熵崩塌”和“熵爆炸”！这项研究让大模型学会“精确探索”，推理成绩飙升

拒绝“熵崩塌”和“熵爆炸”！这项研究让大模型学会“精确探索”，推理成绩飙升

大语言模型在RLVR训练中面临的“熵困境”，有解了！ 2024年以来，以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型，在数学、代码和科学推理任务上取得了显著突破。这些进展很大程度上得益于一种名为RLVR （基于可验证奖励的强化学习）的方法。

10/14/2025 8:58:00 AM

OpenAI奥特曼：能被ChatGPT消灭的工作不是真正的工作

OpenAI奥特曼：能被ChatGPT消灭的工作不是真正的工作

你今天的工作，或许并不是真正的工作这句耸人听闻的言论出自奥特曼与Rowan Cheung最新的采访。在这场长达30分钟的对谈里，除了自己对AI与工作的思考，奥特曼还分享了GPT-6的进展、ChatGPT是否会成为美国版微信、AGI的设想变化、AI未来的交互模式，以及自己被恶搞成Sora热梗的感受。可以说，这次对话涵盖了从娱乐八卦到前沿科技的多重视角，既有趣味，也直指未来趋势。

10/14/2025 8:55:00 AM

人类遗忘的难题解法，被GPT-5重新找出来了

人类遗忘的难题解法，被GPT-5重新找出来了

人类遗忘的难题解法，被GPT-5 Pro重新找出来了！这事儿聚焦于埃尔德什问题#339，这是著名数学家保罗・埃尔德什提出或转述的近千道问题之一，收录于erdosproblems.com网站。该网站记录了每道题目的当前状态，其中约三分之一已解决，大部分仍待解。

10/14/2025 8:54:00 AM

前端危！Gemini 3内测结果获网友一致好评，“有史以来最强前端开发模型”

前端危！Gemini 3内测结果获网友一致好评，“有史以来最强前端开发模型”

谷歌下一代旗舰模型Gemini 3未发布便已悄然走红！原因很简单：强，实在是太强了。在国外社交媒体平台𝕏上，一大波网友激动地分享了Gemini 3的内测结果——从曝光的这些案例来看，Gemini 3尤为擅长前端、SVG矢量图生成，而且多模态能力变得更强。

10/14/2025 8:53:00 AM

岩超聚能融资数亿，AI赋能仿星器聚变与超导商用生态

岩超聚能融资数亿，AI赋能仿星器聚变与超导商用生态

近日，岩超聚能（上海）科技有限公司（以下简称“岩超聚能”）宣布完成数亿元人民币天使轮融资。本轮融资由岩山科技（股票代码：002195）与岩山投资等联合领投，所获资金将用于推进仿星器聚变装置研发与超导技术多领域应用。锚定先进仿星器路线，AI加速研发进程岩超聚能于2025年3月成立，致力于用AI加速聚变能源与超导应用开发。

10/14/2025 8:53:00 AM 新闻助手

资讯热榜

AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免费！让图片放大不失真的位图转矢量图神器 Tmttool 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词）最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品 GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉