AI在线 AI在线

理论

代季峰陈天桥联手AGI首秀炸场!最强开源深度研究模型,GAIA测试82.4分超OpenAI

最强开源深度研究模型来了。 MiroMind ODR(Open Deep Research),来自代季峰加盟陈天桥的技术首秀。 首先,它做到了性能最强,GAIA测试结果更是达到了82.4分,超过了一众开源闭源模型,其中包括Manus、OpenAI的DeepResearch。
8/11/2025 8:43:00 AM

3B模型性能小钢炮,“AI下半场应该训练+验证两条腿跑步”丨上海AI Lab&澳门大学

当大模型把人类曾经的终极考题变成日常练习,AI的奔跑却悄悄瘸了腿——训练能力突飞猛进,验证答案的本事却成了拖后腿的短板。 为此,上海AI Lab和澳门大学联合发布通用答案验证模型CompassVerifier与评测集VerifierBench。 填补了Verifier领域没有建立验证-提升-验证的循环迭代体系的空白。
8/11/2025 8:35:00 AM

开发MCP服务,何时使用工具?何时使用资源?

当我们朝着构建能够推理、计划和自主行动的智能系统前进时,模型上下文协议 (MCP) 在构建 AI 模型如何与外部工具和数据交互方面扮演着关键角色。 在采用 MCP 时,一个容易混淆的常见问题是——什么时候使用资源,什么时候使用工具。 在这里,老码农尝试对这些概念进行区分,提供一些实际的示例,并总结要点,以便有效地应用它们。
8/11/2025 8:05:58 AM
曹洪伟

AI能替你写代码,但近半数代码可能暗藏安全漏洞

Veracode发布的《2025年GenAI代码安全报告》显示,虽然GenAI擅长编写可运行的代码,但在45%的情况下会引入安全漏洞,该报告分析了80个真实编程任务中100多个大语言模型(LLM)生成的代码。 氛围编程Veracode首席技术官延斯·韦斯林(Jens Wessling)表示:“氛围编程(vibe coding)的兴起,标志着软件开发方式的根本转变。 在氛围编程中,开发者通常依赖AI生成代码,且不明确规定安全要求,这种趋势的主要问题在于,开发者无需指定安全约束就能得到想要的代码,实际上是将安全编码决策交给了大语言模型。
8/11/2025 7:30:00 AM

为何必须由营销部门而非IT部门主导AI转型

AI已不再是一项边缘实验,它正像互联网、移动技术和云技术一样,成为现代营销的基础层面。 麦肯锡2025年全球AI调查发现,92%的公司计划在未来三年内增加AI预算,78%的公司已经在至少一项业务职能中应用了AI。 我每天都与以增长为重点的营销高管交流,他们面临着证明其影响力的压力,并寻求解决方案。
8/11/2025 7:07:00 AM
Debra

ICML25 视频问答中以语言为中心的结构化推理

一、前言由于现有的多模态大语言模型(MLLM)在推理过程中存在无法控制和不透明的问题,视频问答(VideoQA)在实现高级认知推理方面仍然具有挑战性。 为了解决这一问题,哔哩哔哩Index团队联合上海交通大学提出了一种新颖的以语言为中心的树状推理(LTR)框架,旨在增强模型的推理能力,该论文已经被 ICML2025 收录,是继 ICLR2025 的工作(ICLR25 重新思考长尾识别中的分类器再训练:标签过平滑可以实现平衡)之后Index团队在AI三大顶会(ICLR/ICML/NeurIPS)的第二项收录。 该框架通过递归地将原始问题划分为逻辑上可处理的子问题,并逐步解决这些子问题,从而提升现有MLLM的推理能力和可解释性。
8/11/2025 2:25:00 AM
AI

GPT-5发布即翻车!奥特曼深夜承认:图表出错,模型变笨。用户只想用回GPT-4o

OpenAI在8月7日正式推出新一代旗舰大模型GPT-5。 据说,这是该公司自成立以来最受关注的一次产品迭代,被宣称是“最强大、最智能”的语言模型,能够在推理、创意生成和多模态理解等多个方面实现质的飞跃。 然而,就在发布后的不到24小时内,OpenAI首席执行官山姆·奥特曼就不得不面对现实。
8/11/2025 2:11:00 AM

Stack Overflow 流量下降了50%的真正原因

大家都说,是 ChatGPT 杀死了 Stack Overflow。 表面上看,确实如此——你刚打出一半问题,AI 已经把答案端上来了。 可真相没那么简单。
8/11/2025 2:00:00 AM
前端小智

腾讯张正友:具身智能必须回答的三个「真问题」

7 月 27 日,腾讯发布了具身智能开放平台 Tairos,以模块化的方式向行业提供大模型、开发工具和数据服务,试图为具身智能的研发和应用提供一套通用的支撑体系。 在 Tairos 问世之前,腾讯 Robotics X 实验室已在具身领域探索七年多。 从多模态四足机器人 Max 到轮腿机器人 Ollie,从灵巧手 TRX-Hand 到人居环境机器人原型小五,这些自研项目不仅是技术展示,更是其探索感知、规划、控制、硬件设计等全栈机器人技术的载体。
8/10/2025 1:17:00 PM
机器之心

token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

token 危机终于要不存在了吗? 近日,新加坡国立大学 AI 研究者 Jinjie Ni 及其团队向着解决 token 危机迈出了关键一步。 在当前大语言模型(LLM)的持续发展中,面临的挑战之一是可用的高质量训练文本数据(tokens)即将枯竭,并成为限制模型性能持续提升的关键瓶颈。
8/10/2025 1:12:00 PM
机器之心

联合理解生成的关键拼图?腾讯发布X-Omini:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

本论文作者团队来自腾讯混元X组,共同一作为耿子钢和王逸冰,项目Lead为张小松,通讯作者为腾讯混元团队杰出科学家胡瀚,Swin Transformer作者。 在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。 大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。
8/10/2025 1:07:00 PM
机器之心

40年后,Dijkstra算法极限再被突破,清华段然团队更快最短路径算法摘STOC最佳论文

每次打开导航的,导航软件在一秒内给出一个最速路线的时候,你有没有好奇过它是怎么找到这条路的? 假如不考虑堵车、红绿灯等交通影响因素,仅找到一条最短最快的路线,那不论如何也逃不掉 Dijkstra 算法。 按照传统的 Dijkstra 算法,你将在整段路程中停下多次,寻找每一段的最短路径,然后再去更新下一段如何最短,直到走到目的地。
8/10/2025 1:01:00 PM
机器之心

ICCV 2025 | 新型后门攻击直指Scaffold联邦学习,NTU联手0G Labs揭示中心化训练安全漏洞

通过使用控制变元(control variate)来校准每个客户端的本地梯度,Scaffold 已被广泛认为是缓解联邦学习中数据异质性影响的一种强大方案。 但尽管 Scaffold 实现了显著的性能提升,这种优越性是以增加安全漏洞为代价的。 本文中,NTU、0G Labs等机构提出了 BadSFL,这是首个针对 Scaffold 的后门攻击方法,它能够将原本良性的客户端转化为攻击的帮凶以放大攻击效果。
8/9/2025 12:52:00 PM
机器之心

上海AI Lab、浙大EagleLab等提出RRVF:利用「验证非对称性」,只输入图片学习视觉推理

本本研究由上海AI Lab前沿探索中心石博天老师带领的数据前沿团队、浙江大学EagleLab和上海创智学院等单位联合完成。 第一作者陈杨是浙江大学硕士生,研究方向为多模态大模型和推理,本工作完成于她在上海AI Lab实习期间,实习所在团队以Agent-Ready的知识为核心,实现「提取-结构化-推理」全链路,包括基于MLLM的文档理解、基于异质图网络的多模态知识表征、自主终身学习智能体等。 论文共同第一作者、通讯作者沈宇帆就职于上海AI Lab,正在全身心探索下一代 MLLM 学习范式和高效的多模态智能体。
8/9/2025 12:41:00 PM
机器之心

扩散LLM推理新范式:打破生成长度限制,实现动态自适应调节

随着 Gemini-Diffusion,Seed-Diffusion 等扩散大语言模型(DLLM)的发布,这一领域成为了工业界和学术界的热门方向。 但是,当前 DLLM 存在着在推理时必须采用预设固定长度的限制,对于不同任务都需要专门调整才能达到最优效果。 为了解决这一本质的问题,香港中文大学 MMLab,上海 AI 实验室等提出 DAEDAL,赋予 DLLM 可以根据问题的具体情况自主调整回答长度的能力,弥补了 DLLM 与自回归 LLM 的关键差距,为更灵活、高效、强大的扩散大语言模型打下了基石。
8/8/2025 6:20:00 PM
机器之心

从Debugger到Developer : 低代码时代新基准NoCode-bench,SWE-Bench作者力荐

论文的主要作者为浙江大学研究员刘忠鑫及其研究生邓乐、蒋中豪,其他作者包括香港科技大学研究助理教授曹嘉伦、德国 CISPA 和斯图加特大学教授 Michael Pradel。 刘忠鑫的主要研究领域为代码智能,包括代码生成与变更、代码表示学习等;曹嘉伦的主要研究领域包括 AI&SE、人工智能测试、形式化验证等。 当前,大型语言模型(LLM)在软件工程领域的应用日新月异,尤其是在自动修复 Bug 方面,以 SWE-bench 为代表的基准测试展示了 AI 惊人的潜力。
8/8/2025 4:41:00 PM
机器之心

GPT-5 正式发布,CIO与IT团队迎来新选择

在 2025 年 8 月 8 日凌晨(北京时间),OpenAI 正式发布 GPT-5,为全球大模型市场带来了一场巨大的变革。 此次发布的 GPT-5 包含了 GPT-5、GPT-5 mini 、GPT-5 nano、GPT-5 Chat 四种模型,它们在多个关键领域展现出了显著的优势,迅速吸引了全球的目光。 GPT-5 采用了全新的统一系统设计,包含三个核心组件:一个高效的基础模型用于处理常规问题,一个具备深度推理能力的「GPT-5 thinking」模型专门应对复杂任务,以及一个实时路由器负责根据对话复杂度、工具需求等因素选择合适的模型。
8/8/2025 4:22:19 PM
shjiaz

GPT‑5深夜发布:模型之战结束,Agent之战开始!

嘿,大家好! 这里是一个专注于前沿AI和智能体的频道~昨晚,Sam炒作了一个月的GPT-5正式发布了! 单纯卷参数和跑分的时代过去了,真正开箱即用的原生Agent时代,开始到来了。
8/8/2025 2:28:12 PM
猕猴桃