资讯列表
代季峰陈天桥联手AGI首秀炸场!最强开源深度研究模型,GAIA测试82.4分超OpenAI
最强开源深度研究模型来了。 MiroMind ODR(Open Deep Research),来自代季峰加盟陈天桥的技术首秀。 首先,它做到了性能最强,GAIA测试结果更是达到了82.4分,超过了一众开源闭源模型,其中包括Manus、OpenAI的DeepResearch。
8/11/2025 8:43:00 AM
3B模型性能小钢炮,“AI下半场应该训练+验证两条腿跑步”丨上海AI Lab&澳门大学
当大模型把人类曾经的终极考题变成日常练习,AI的奔跑却悄悄瘸了腿——训练能力突飞猛进,验证答案的本事却成了拖后腿的短板。 为此,上海AI Lab和澳门大学联合发布通用答案验证模型CompassVerifier与评测集VerifierBench。 填补了Verifier领域没有建立验证-提升-验证的循环迭代体系的空白。
8/11/2025 8:35:00 AM
开发MCP服务,何时使用工具?何时使用资源?
当我们朝着构建能够推理、计划和自主行动的智能系统前进时,模型上下文协议 (MCP) 在构建 AI 模型如何与外部工具和数据交互方面扮演着关键角色。 在采用 MCP 时,一个容易混淆的常见问题是——什么时候使用资源,什么时候使用工具。 在这里,老码农尝试对这些概念进行区分,提供一些实际的示例,并总结要点,以便有效地应用它们。
8/11/2025 8:05:58 AM
曹洪伟
第一波!2025年8月精选实用设计干货合集
大家好,这是 2025 年 8 月第一波干货合集! 这期干货合集几乎全都是 AI 工具,有基于 AI 的着陆页生成工具,有给 Blender 做的 AI 助手,有免费生成粉色壁纸的 AI 网站,有免费且具备 AI 功能的在线设计平台,有基于 AI 的 Github Readme 文档生成工具,还有一键生成可交互页面的 AI 平台。 当然,在继续阅读下去之前,记得看看往期干货中有没有你感兴趣的素材:下面我们具体看看这一期的干货:.
8/11/2025 7:35:54 AM
陈子木
AI能替你写代码,但近半数代码可能暗藏安全漏洞
Veracode发布的《2025年GenAI代码安全报告》显示,虽然GenAI擅长编写可运行的代码,但在45%的情况下会引入安全漏洞,该报告分析了80个真实编程任务中100多个大语言模型(LLM)生成的代码。 氛围编程Veracode首席技术官延斯·韦斯林(Jens Wessling)表示:“氛围编程(vibe coding)的兴起,标志着软件开发方式的根本转变。 在氛围编程中,开发者通常依赖AI生成代码,且不明确规定安全要求,这种趋势的主要问题在于,开发者无需指定安全约束就能得到想要的代码,实际上是将安全编码决策交给了大语言模型。
8/11/2025 7:30:00 AM
为何必须由营销部门而非IT部门主导AI转型
AI已不再是一项边缘实验,它正像互联网、移动技术和云技术一样,成为现代营销的基础层面。 麦肯锡2025年全球AI调查发现,92%的公司计划在未来三年内增加AI预算,78%的公司已经在至少一项业务职能中应用了AI。 我每天都与以增长为重点的营销高管交流,他们面临着证明其影响力的压力,并寻求解决方案。
8/11/2025 7:07:00 AM
Debra
上海AI Lab庞江淼:开放平台是具身智能“ChatGPT时刻”的前提丨具身先锋十人谈
置身机器人这样的大热赛道,明星研究员总被如此之多的目光注视着。 但关于庞江淼,网络查到的信息寥寥。 为数不多的内容是,聚焦计算机视觉,浙江大学博士,香港中文大学MMLab研究员,接下来一份经历就是现在了——上海AI实验室青年科学家,具身智能团队负责人。
8/11/2025 3:07:00 AM
丁莉
ICML25 视频问答中以语言为中心的结构化推理
一、前言由于现有的多模态大语言模型(MLLM)在推理过程中存在无法控制和不透明的问题,视频问答(VideoQA)在实现高级认知推理方面仍然具有挑战性。 为了解决这一问题,哔哩哔哩Index团队联合上海交通大学提出了一种新颖的以语言为中心的树状推理(LTR)框架,旨在增强模型的推理能力,该论文已经被 ICML2025 收录,是继 ICLR2025 的工作(ICLR25 重新思考长尾识别中的分类器再训练:标签过平滑可以实现平衡)之后Index团队在AI三大顶会(ICLR/ICML/NeurIPS)的第二项收录。 该框架通过递归地将原始问题划分为逻辑上可处理的子问题,并逐步解决这些子问题,从而提升现有MLLM的推理能力和可解释性。
8/11/2025 2:25:00 AM
AI
GPT-5发布即翻车!奥特曼深夜承认:图表出错,模型变笨。用户只想用回GPT-4o
OpenAI在8月7日正式推出新一代旗舰大模型GPT-5。 据说,这是该公司自成立以来最受关注的一次产品迭代,被宣称是“最强大、最智能”的语言模型,能够在推理、创意生成和多模态理解等多个方面实现质的飞跃。 然而,就在发布后的不到24小时内,OpenAI首席执行官山姆·奥特曼就不得不面对现实。
8/11/2025 2:11:00 AM
Stack Overflow 流量下降了50%的真正原因
大家都说,是 ChatGPT 杀死了 Stack Overflow。 表面上看,确实如此——你刚打出一半问题,AI 已经把答案端上来了。 可真相没那么简单。
8/11/2025 2:00:00 AM
前端小智
OpenAI重磅发布ChatGPT-5!写作坠入谷底,编程一骑绝尘
凌晨 1 点,在万众瞩目的境况下,OpenAI 的直播正式开始。 GPT-5,终于来了。 AI 走的太快,快到才 2 年半的时间,就像是过去了 10 年。
8/11/2025 12:25:16 AM
数字生命卡兹克
一文看尽世界机器人大会,不用去现场人挤人了
2025世界机器人大会开幕当天,门口挤满了人人人。 不过,当看到百花齐放的机器人们,这趟探馆,值了! 世界机器人大会已经走过10年,回看以前的新闻和产品,此刻站在场馆里大概只有一个感慨:机器人发展太迅速了!
8/10/2025 4:56:29 PM
henry
腾讯张正友:具身智能必须回答的三个「真问题」
7 月 27 日,腾讯发布了具身智能开放平台 Tairos,以模块化的方式向行业提供大模型、开发工具和数据服务,试图为具身智能的研发和应用提供一套通用的支撑体系。 在 Tairos 问世之前,腾讯 Robotics X 实验室已在具身领域探索七年多。 从多模态四足机器人 Max 到轮腿机器人 Ollie,从灵巧手 TRX-Hand 到人居环境机器人原型小五,这些自研项目不仅是技术展示,更是其探索感知、规划、控制、硬件设计等全栈机器人技术的载体。
8/10/2025 1:17:00 PM
机器之心
token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升
token 危机终于要不存在了吗? 近日,新加坡国立大学 AI 研究者 Jinjie Ni 及其团队向着解决 token 危机迈出了关键一步。 在当前大语言模型(LLM)的持续发展中,面临的挑战之一是可用的高质量训练文本数据(tokens)即将枯竭,并成为限制模型性能持续提升的关键瓶颈。
8/10/2025 1:12:00 PM
机器之心
联合理解生成的关键拼图?腾讯发布X-Omini:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
本论文作者团队来自腾讯混元X组,共同一作为耿子钢和王逸冰,项目Lead为张小松,通讯作者为腾讯混元团队杰出科学家胡瀚,Swin Transformer作者。 在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。 大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。
8/10/2025 1:07:00 PM
机器之心
40年后,Dijkstra算法极限再被突破,清华段然团队更快最短路径算法摘STOC最佳论文
每次打开导航的,导航软件在一秒内给出一个最速路线的时候,你有没有好奇过它是怎么找到这条路的? 假如不考虑堵车、红绿灯等交通影响因素,仅找到一条最短最快的路线,那不论如何也逃不掉 Dijkstra 算法。 按照传统的 Dijkstra 算法,你将在整段路程中停下多次,寻找每一段的最短路径,然后再去更新下一段如何最短,直到走到目的地。
8/10/2025 1:01:00 PM
机器之心
GPT-5问题太多,奥特曼带团回应一切,图表弄错是因「太累了」
前期有多期望,后期就有多失望,这大概是大多数业界人士在看到 GPT-5 这场事先张扬的高调发布后的最大心声。 当然,也许在内部测试的时候,OpenAI 确实觉得 GPT-5 是目前最为强大的模型,可是走进真实世界后却好像并非如此。 一位 X 网友发现 GPT-5 在解决可能属于小学水平的数学题时无能为力,吐槽到底被官方称为「博士」水平的智力是哪个学校颁发的?
8/9/2025 11:23:00 PM
机器之心
ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步
本文的第一作者是董冠霆,目前就读于中国人民大学高瓴人工智能学院,博士一年级,导师为窦志成教授和文继荣教授。 他的研究方向主要包括大语言模型推理,多智能体强化学习、深度搜索智能体等。 在国际顶级会议如 ICLR、ACL、AAAI 等发表了多篇论文,并在快手大模型应用组、阿里通义千问组等大模型团队进行实习。
8/9/2025 11:17:00 PM
机器之心