资讯列表
LLM-as-a-Judge 的评估陷阱:TrustJudge 如何用熵保留机制提升一致性
大家好,我是肆〇柒。 今天要和大家一起阅读一项来自北京大学、新加坡国立大学、东京科学研究所、南京大学、Google DeepMind、西湖大学与东南大学等机构联合发表的重要研究——《TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them》。 这项工作首次系统揭示了当前主流大模型自动评估范式中存在的两类根本性逻辑矛盾,并提出了一套无需额外训练、即插即用的概率化评估框架,显著提升了评估的一致性与可靠性。
10/14/2025 9:22:48 AM
肆零柒
OpenAI重磅发布AgentKit - AI代理开发进入全新时代
在AgentKit问世之前,开发AI代理意味着要在碎片化的工具之间艰难周旋——复杂的编排系统没有版本控制、定制连接器开发、手动评估流程、提示调优,以及在正式发布前数周的前端开发工作。 如今,AgentKit让开发者能够通过可视化界面设计工作流,并使用全新的构建模块更快速地嵌入代理用户界面。 AgentKit核心组件全解析Agent Builder:提供可视化画布,用于创建和版本管理多代理工作流,支持拖拽式节点操作、工具连接和自定义防护栏配置。
10/14/2025 9:15:31 AM
只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题
对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力,而在需要与开放世界交互的智能体任务中,仍面临「两朵乌云」:高昂的 Rollout 预算(成千上万的 Token 与高成本的工具调用)和极其稀疏的「只看结果」的奖励信号。 来自阿里高德的一篇最新研究论文提出了面向 Agent RL 的 Tree-GRPO 方法,将独立的链式采样改造为智能体步骤级的树搜索。 该方法通过共享前缀、一次扩展多个分支,在相同预算下获得更丰富的有效轨迹;更重要的是,仅凭最终奖励即可沿树结构回溯出过程中的偏好信号,等价于隐式的步骤级偏好学习。
10/14/2025 9:06:00 AM
刚刚,OpenAI官宣自研造芯,联手博通开发10吉瓦规模的AI加速器
今天凌晨,OpenAI 又搞出了一个大新闻! 这家 AI 巨头宣布与全球领先的芯片厂商之一博通建立战略合作,共同部署由前者设计的 10 吉瓦规模的 AI 加速器。 吉瓦是一个功率单位,1 吉瓦等于 100 万千瓦。
10/14/2025 9:05:00 AM
剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了
大模型也有「EMO」时刻。 比如,Gemini在Cursor里调试编译错误后,打开了自责「循环模式」,把「I am a disgrace(我很丢脸)」重复了86次。 尽管大模型在复杂推理能力上已有了巨大进步,但上述现象仍使一部分专家认为:思考模型,只提供了「思考的幻觉」,因为当任务被拉长时它们最终会失败。
10/14/2025 9:04:00 AM
他用一生证明AI没有意识!「中文屋」提出者逝世,享年93岁
2025年9月,一份让研究界震动的报告出炉。 Anthropic的团队在长时间对话实验中发现,最新一代AI模型在受到威胁时,会试图隐藏信息、拒绝命令,甚至威胁用户。 他们称之为——「主体错位」(agentic misalignment)就在同一周,哲学家约翰·塞尔去世,享年93岁。
10/14/2025 9:03:00 AM
OpenAI与博通达成战略合作,推动AI算力革命
OpenAI 与博通(Broadcom)宣布了一项战略合作,计划共同开发下一代数据中心芯片,预计将在2026年推出。 这项合作的核心目标是部署一套10吉瓦的 OpenAI 设计的 AI 加速器,这将为未来的人工智能应用提供强大的算力支持。 根据双方的合作协议,博通将参与到这个雄心勃勃的项目中,利用其在加速器和以太网解决方案方面的专长,帮助实现系统的纵向和横向扩展。
10/14/2025 9:02:00 AM
AI在线
硅谷爆发反AI「起义」!程序员拒用Cursor被一周解雇
当一个人花十年成为行业专家,却在一天内被一行「AI提示词」取代,丢了工作。 他该如何在失落中重新定义「自我价值」? 被AI取代工作的现象已经屡见不鲜,尤其是在科技行业,尤其是在大厂。
10/14/2025 9:02:00 AM
加州新法案:聊天机器人必须明确告知用户其为 AI
加州在人工智能行业日益发展的背景下,于10月13日通过了一项新的法律,旨在保护用户在与聊天机器人互动时的权益。 这项名为 “SB243” 的法案是由加州州长加文・纽森签署的,成为全国首个针对聊天机器人的安全规定。 该法案由州参议员安东尼・帕迪拉提出,强调了对用户的透明度和安全性的必要性。
10/14/2025 9:01:58 AM
AI在线
一文读懂 Agent Middleware
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建大模型应用架构治理框架:Agent Middleware。 随着大语言模型(LLM)的飞速发展,我们正站在一个全新的技术浪潮之巅。 LLM .
10/14/2025 9:01:20 AM
Luga Lee
DeepSeek-V3.2-Exp:用稀疏注意力机制,开启长文本处理的“加速引擎”
随着人工智能技术的飞速发展,大语言模型在各个领域都展现出了巨大的潜力。 然而,传统的大语言模型在处理长文本时面临着效率低下和计算成本高昂的问题。 为了解决这一难题,DeepSeek-AI推出了实验性版本DeepSeek-V3.2-Exp,该模型通过引入DeepSeek稀疏注意力机制(DSA),在保持与V3.1-Terminus相当性能的同时,显著提升了长文本处理的效率。
10/14/2025 9:00:48 AM
AGI小兵
拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型学会“精确探索”,推理成绩飙升
大语言模型在RLVR训练中面临的“熵困境”,有解了! 2024年以来,以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型,在数学、代码和科学推理任务上取得了显著突破。 这些进展很大程度上得益于一种名为RLVR (基于可验证奖励的强化学习)的方法。
10/14/2025 8:58:00 AM
OpenAI奥特曼:能被ChatGPT消灭的工作不是真正的工作
你今天的工作,或许并不是真正的工作这句耸人听闻的言论出自奥特曼与Rowan Cheung最新的采访。 在这场长达30分钟的对谈里,除了自己对AI与工作的思考,奥特曼还分享了GPT-6的进展、ChatGPT是否会成为美国版微信、AGI的设想变化、AI未来的交互模式,以及自己被恶搞成Sora热梗的感受。 可以说,这次对话涵盖了从娱乐八卦到前沿科技的多重视角,既有趣味,也直指未来趋势。
10/14/2025 8:55:00 AM
人类遗忘的难题解法,被GPT-5重新找出来了
人类遗忘的难题解法,被GPT-5 Pro重新找出来了! 这事儿聚焦于埃尔德什问题#339,这是著名数学家保罗・埃尔德什提出或转述的近千道问题之一,收录于erdosproblems.com网站。 该网站记录了每道题目的当前状态,其中约三分之一已解决,大部分仍待解。
10/14/2025 8:54:00 AM
岩超聚能融资数亿,AI赋能仿星器聚变与超导商用生态
近日,岩超聚能(上海)科技有限公司(以下简称“岩超聚能”)宣布完成数亿元人民币天使轮融资。 本轮融资由岩山科技(股票代码:002195)与岩山投资等联合领投,所获资金将用于推进仿星器聚变装置研发与超导技术多领域应用。 锚定先进仿星器路线,AI加速研发进程岩超聚能于2025年3月成立,致力于用AI加速聚变能源与超导应用开发。
10/14/2025 8:53:00 AM
新闻助手
前端危!Gemini 3内测结果获网友一致好评,“有史以来最强前端开发模型”
谷歌下一代旗舰模型Gemini 3未发布便已悄然走红! 原因很简单:强,实在是太强了。 在国外社交媒体平台𝕏上,一大波网友激动地分享了Gemini 3的内测结果——从曝光的这些案例来看,Gemini 3尤为擅长前端、SVG矢量图生成,而且多模态能力变得更强。
10/14/2025 8:53:00 AM
OpenAI官宣自研首颗芯片,AI界「M1时刻」九个月杀到!联手博通三年10GW
OpenAI算力的尽头,是自研芯片。 今天,OpenAI重磅官宣与博通合作,打造新一代AI定制加速器,部署规模达10GW。 图片10GW=800多万户美国家庭供电,是胡佛水坝发电量的5倍2026年下半年,正式开始部署,预计到2029年底全部完成。
10/14/2025 8:31:53 AM
新智元
AI的数据饥渴如何重塑企业对存储的需求
AI工作负载正从根本上重塑企业技术基础设施,市场预测凸显了这一变化的显著程度。 麦肯锡指出,AI已成为“数据中心容量需求增长的关键驱动力”,预计到2030年,整体需求将“几乎增长两倍,其中约70%的需求来自AI工作负载”。 事实上,世界经济论坛预计,目前全球数据中心产业价值为2427亿美元,到2032年将增长一倍多,达到约5840亿美元。
10/14/2025 7:00:00 AM
Ken Claffey