理论
代季峰陈天桥联手AGI首秀炸场!最强开源深度研究模型,GAIA测试82.4分超OpenAI
最强开源深度研究模型来了。 MiroMind ODR(Open Deep Research),来自代季峰加盟陈天桥的技术首秀。 首先,它做到了性能最强,GAIA测试结果更是达到了82.4分,超过了一众开源闭源模型,其中包括Manus、OpenAI的DeepResearch。
8/11/2025 8:43:00 AM
3B模型性能小钢炮,“AI下半场应该训练+验证两条腿跑步”丨上海AI Lab&澳门大学
当大模型把人类曾经的终极考题变成日常练习,AI的奔跑却悄悄瘸了腿——训练能力突飞猛进,验证答案的本事却成了拖后腿的短板。 为此,上海AI Lab和澳门大学联合发布通用答案验证模型CompassVerifier与评测集VerifierBench。 填补了Verifier领域没有建立验证-提升-验证的循环迭代体系的空白。
8/11/2025 8:35:00 AM
开发MCP服务,何时使用工具?何时使用资源?
当我们朝着构建能够推理、计划和自主行动的智能系统前进时,模型上下文协议 (MCP) 在构建 AI 模型如何与外部工具和数据交互方面扮演着关键角色。 在采用 MCP 时,一个容易混淆的常见问题是——什么时候使用资源,什么时候使用工具。 在这里,老码农尝试对这些概念进行区分,提供一些实际的示例,并总结要点,以便有效地应用它们。
8/11/2025 8:05:58 AM
曹洪伟
AI能替你写代码,但近半数代码可能暗藏安全漏洞
Veracode发布的《2025年GenAI代码安全报告》显示,虽然GenAI擅长编写可运行的代码,但在45%的情况下会引入安全漏洞,该报告分析了80个真实编程任务中100多个大语言模型(LLM)生成的代码。 氛围编程Veracode首席技术官延斯·韦斯林(Jens Wessling)表示:“氛围编程(vibe coding)的兴起,标志着软件开发方式的根本转变。 在氛围编程中,开发者通常依赖AI生成代码,且不明确规定安全要求,这种趋势的主要问题在于,开发者无需指定安全约束就能得到想要的代码,实际上是将安全编码决策交给了大语言模型。
8/11/2025 7:30:00 AM
为何必须由营销部门而非IT部门主导AI转型
AI已不再是一项边缘实验,它正像互联网、移动技术和云技术一样,成为现代营销的基础层面。 麦肯锡2025年全球AI调查发现,92%的公司计划在未来三年内增加AI预算,78%的公司已经在至少一项业务职能中应用了AI。 我每天都与以增长为重点的营销高管交流,他们面临着证明其影响力的压力,并寻求解决方案。
8/11/2025 7:07:00 AM
Debra
ICML25 视频问答中以语言为中心的结构化推理
一、前言由于现有的多模态大语言模型(MLLM)在推理过程中存在无法控制和不透明的问题,视频问答(VideoQA)在实现高级认知推理方面仍然具有挑战性。 为了解决这一问题,哔哩哔哩Index团队联合上海交通大学提出了一种新颖的以语言为中心的树状推理(LTR)框架,旨在增强模型的推理能力,该论文已经被 ICML2025 收录,是继 ICLR2025 的工作(ICLR25 重新思考长尾识别中的分类器再训练:标签过平滑可以实现平衡)之后Index团队在AI三大顶会(ICLR/ICML/NeurIPS)的第二项收录。 该框架通过递归地将原始问题划分为逻辑上可处理的子问题,并逐步解决这些子问题,从而提升现有MLLM的推理能力和可解释性。
8/11/2025 2:25:00 AM
AI
GPT-5发布即翻车!奥特曼深夜承认:图表出错,模型变笨。用户只想用回GPT-4o
OpenAI在8月7日正式推出新一代旗舰大模型GPT-5。 据说,这是该公司自成立以来最受关注的一次产品迭代,被宣称是“最强大、最智能”的语言模型,能够在推理、创意生成和多模态理解等多个方面实现质的飞跃。 然而,就在发布后的不到24小时内,OpenAI首席执行官山姆·奥特曼就不得不面对现实。
8/11/2025 2:11:00 AM
Stack Overflow 流量下降了50%的真正原因
大家都说,是 ChatGPT 杀死了 Stack Overflow。 表面上看,确实如此——你刚打出一半问题,AI 已经把答案端上来了。 可真相没那么简单。
8/11/2025 2:00:00 AM
前端小智
腾讯张正友:具身智能必须回答的三个「真问题」
7 月 27 日,腾讯发布了具身智能开放平台 Tairos,以模块化的方式向行业提供大模型、开发工具和数据服务,试图为具身智能的研发和应用提供一套通用的支撑体系。 在 Tairos 问世之前,腾讯 Robotics X 实验室已在具身领域探索七年多。 从多模态四足机器人 Max 到轮腿机器人 Ollie,从灵巧手 TRX-Hand 到人居环境机器人原型小五,这些自研项目不仅是技术展示,更是其探索感知、规划、控制、硬件设计等全栈机器人技术的载体。
8/10/2025 1:17:00 PM
机器之心
token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升
token 危机终于要不存在了吗? 近日,新加坡国立大学 AI 研究者 Jinjie Ni 及其团队向着解决 token 危机迈出了关键一步。 在当前大语言模型(LLM)的持续发展中,面临的挑战之一是可用的高质量训练文本数据(tokens)即将枯竭,并成为限制模型性能持续提升的关键瓶颈。
8/10/2025 1:12:00 PM
机器之心
联合理解生成的关键拼图?腾讯发布X-Omini:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
本论文作者团队来自腾讯混元X组,共同一作为耿子钢和王逸冰,项目Lead为张小松,通讯作者为腾讯混元团队杰出科学家胡瀚,Swin Transformer作者。 在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。 大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。
8/10/2025 1:07:00 PM
机器之心
40年后,Dijkstra算法极限再被突破,清华段然团队更快最短路径算法摘STOC最佳论文
每次打开导航的,导航软件在一秒内给出一个最速路线的时候,你有没有好奇过它是怎么找到这条路的? 假如不考虑堵车、红绿灯等交通影响因素,仅找到一条最短最快的路线,那不论如何也逃不掉 Dijkstra 算法。 按照传统的 Dijkstra 算法,你将在整段路程中停下多次,寻找每一段的最短路径,然后再去更新下一段如何最短,直到走到目的地。
8/10/2025 1:01:00 PM
机器之心
ICCV 2025 | 新型后门攻击直指Scaffold联邦学习,NTU联手0G Labs揭示中心化训练安全漏洞
通过使用控制变元(control variate)来校准每个客户端的本地梯度,Scaffold 已被广泛认为是缓解联邦学习中数据异质性影响的一种强大方案。 但尽管 Scaffold 实现了显著的性能提升,这种优越性是以增加安全漏洞为代价的。 本文中,NTU、0G Labs等机构提出了 BadSFL,这是首个针对 Scaffold 的后门攻击方法,它能够将原本良性的客户端转化为攻击的帮凶以放大攻击效果。
8/9/2025 12:52:00 PM
机器之心
上海AI Lab、浙大EagleLab等提出RRVF:利用「验证非对称性」,只输入图片学习视觉推理
本本研究由上海AI Lab前沿探索中心石博天老师带领的数据前沿团队、浙江大学EagleLab和上海创智学院等单位联合完成。 第一作者陈杨是浙江大学硕士生,研究方向为多模态大模型和推理,本工作完成于她在上海AI Lab实习期间,实习所在团队以Agent-Ready的知识为核心,实现「提取-结构化-推理」全链路,包括基于MLLM的文档理解、基于异质图网络的多模态知识表征、自主终身学习智能体等。 论文共同第一作者、通讯作者沈宇帆就职于上海AI Lab,正在全身心探索下一代 MLLM 学习范式和高效的多模态智能体。
8/9/2025 12:41:00 PM
机器之心
扩散LLM推理新范式:打破生成长度限制,实现动态自适应调节
随着 Gemini-Diffusion,Seed-Diffusion 等扩散大语言模型(DLLM)的发布,这一领域成为了工业界和学术界的热门方向。 但是,当前 DLLM 存在着在推理时必须采用预设固定长度的限制,对于不同任务都需要专门调整才能达到最优效果。 为了解决这一本质的问题,香港中文大学 MMLab,上海 AI 实验室等提出 DAEDAL,赋予 DLLM 可以根据问题的具体情况自主调整回答长度的能力,弥补了 DLLM 与自回归 LLM 的关键差距,为更灵活、高效、强大的扩散大语言模型打下了基石。
8/8/2025 6:20:00 PM
机器之心
从Debugger到Developer : 低代码时代新基准NoCode-bench,SWE-Bench作者力荐
论文的主要作者为浙江大学研究员刘忠鑫及其研究生邓乐、蒋中豪,其他作者包括香港科技大学研究助理教授曹嘉伦、德国 CISPA 和斯图加特大学教授 Michael Pradel。 刘忠鑫的主要研究领域为代码智能,包括代码生成与变更、代码表示学习等;曹嘉伦的主要研究领域包括 AI&SE、人工智能测试、形式化验证等。 当前,大型语言模型(LLM)在软件工程领域的应用日新月异,尤其是在自动修复 Bug 方面,以 SWE-bench 为代表的基准测试展示了 AI 惊人的潜力。
8/8/2025 4:41:00 PM
机器之心
GPT-5 正式发布,CIO与IT团队迎来新选择
在 2025 年 8 月 8 日凌晨(北京时间),OpenAI 正式发布 GPT-5,为全球大模型市场带来了一场巨大的变革。 此次发布的 GPT-5 包含了 GPT-5、GPT-5 mini 、GPT-5 nano、GPT-5 Chat 四种模型,它们在多个关键领域展现出了显著的优势,迅速吸引了全球的目光。 GPT-5 采用了全新的统一系统设计,包含三个核心组件:一个高效的基础模型用于处理常规问题,一个具备深度推理能力的「GPT-5 thinking」模型专门应对复杂任务,以及一个实时路由器负责根据对话复杂度、工具需求等因素选择合适的模型。
8/8/2025 4:22:19 PM
shjiaz
GPT‑5深夜发布:模型之战结束,Agent之战开始!
嘿,大家好! 这里是一个专注于前沿AI和智能体的频道~昨晚,Sam炒作了一个月的GPT-5正式发布了! 单纯卷参数和跑分的时代过去了,真正开箱即用的原生Agent时代,开始到来了。
8/8/2025 2:28:12 PM
猕猴桃
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
AI新词
智能体
马斯克
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
计算
工具
Sora
GPU
华为
大语言模型
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
AGI
深度学习
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
编程
DeepMind
亚马逊
特斯拉
AI模型