理论

AI集体“听不懂”！MMAR基准测试揭示音频大模型巨大短板

用AI来整理会议内容，已经是人类的常规操作。不过，你猜怎么着？面对1000道多步骤音频推理题时，30款AI模型竟然几乎全军覆没，很多开源模型表现甚至接近瞎猜。

6/10/2025 9:10:00 AM

AI七个月突破数学家“围剿”反超人类！14位数学家深挖原始推理token：不靠死记硬背靠直觉

从只能答对2%的题目，到在超难数学题集中刷下22%得分，甚至超过人类团队平均水平，大模型需要多长时间？现在，令数学家们都惊讶的结果已经尘埃落定：7个月。发生在大名鼎鼎的“专为为难大模型而生的”FrontierMath基准测试上的这一幕，在激起热议同时，也引发了新的思考：大模型们是怎么做到的？

6/10/2025 9:09:00 AM

双重突破：全球首个零售VLA大模型来了！开源OpenWBT让机器人遥操门槛暴降！

学会“适当暂停与总结”，大模型终于实现无限推理。想象一下，让你一口气不歇地推演一个超复杂数学证明，大脑也会“内存溢出”吧？如今的大模型在长上下文推理中也面临同样的困境，随着推理长度增加而指数级增长的计算成本，以及由于长度受限而被迫中断推理过程。

6/10/2025 9:07:00 AM

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

视觉语言模型（VLM）正经历从「感知」到「认知」的关键跃迁。当OpenAI的o3系列通过「图像思维」（Thinking with Images）让模型学会缩放、标记视觉区域时，我们看到了多模态交互的全新可能。然而，当前主流VLM仍被困在「文本茧房」中——依赖文本token间接翻译视觉信息，在高清图像中的微小物体、视频里的动态细节等场景中，常常因缺乏直接视觉操作能力而「视而不见」。

6/10/2025 9:07:00 AM

无需SFT也不用RL，样本级推理优化神器SLOT来了，准确率轻松+10%

试想一下，如果你参加考试时，可以在答题前花几秒钟「适应」一下这道具体的题目，你的表现会不会更好？这正是西湖大学研究团队在最新论文中提出的核心思想。他们开发的 SLOT（Sample-specific Language Model Optimization at Test-time）方法，把每个输入 prompt 本身当作一份「迷你训练数据」，让模型在生成答案前先「学习」理解这个具体问题。

6/10/2025 9:05:00 AM

大模型能够自发形成“人类思维地图”！Nature子刊重磅研究揭示多模态大模型类脑机制

大模型≠随机鹦鹉！ Nature子刊最新研究证明：大模型内部存在着类似人类对现实世界概念的理解。 LLM能理解现实世界和各种抽象概念吗？

6/10/2025 9:04:00 AM

以神经网络为核心引擎，让AI承担雷达仿真数据生成任务，还实现对雷达物理特性的建模与控制——这就是光轮智能联合清华AIR、LeddarTech等机构提出的全新自动驾驶神经渲染框架SA-Radar。在无需雷达具体细节的情况下，它能实现可控且逼真的雷达仿真，支持场景的灵活编辑——包括雷达属性修改、演员移除以及新视角合成，并能显著增强多种下游任务。作为高级驾驶辅助系统（ADAS）中扮演着至关重要角色的雷达，其相关研究和开发仍面临数据获取的挑战。

6/10/2025 8:45:00 AM

李飞飞自曝详细创业经历：五年前因眼睛受伤，坚定要做世界模型

因为眼睛受伤暂时失去立体视觉，李飞飞更加坚定了做世界模型的决心。在a16z的最新播客节目中，“AI教母”李飞飞讲述了五年前因为一次角膜损伤暂时失去立体视觉的经历：尽管凭借多年经验能想象出三维世界，但一只眼睛看东西时，我开始害怕开车。但作为一名科学家，她也把这次经历当成一次宝贵的“实验”机会。

6/10/2025 8:43:00 AM

生成式 AI 在 B 端软件中实践的思考

我一直认为 C 端软件和 AI 的结合会更顺畅一些，例如，笔记工具“墨问”最近推出了 MCP 功能，允许我在各种客户端中与 AI 交互，并将结果通过 MCP 保存至其中。这是因为大部分情况下，C 端对准确性的容忍度更高。 B 端软件则不同，其对准确性要求极高，尤其在金融、医疗等行业。

6/10/2025 8:34:47 AM

七种方式让你的AI编码结果更靠谱

译者 | 核子可乐审校 | 重楼企业在积极引入AI的同时，也希望雇用更多工程师，期望开发者能够借AI之力将产出“提升10倍”。但要真正高效运用AI编码助手，其中也有不少门道。首先是AI编码助手的固有局限，其存在大量不确定性，因此容易引发种种难以避免的意外行为，例如随机删除代码或引入逻辑错误。

6/10/2025 8:30:50 AM

核子可乐

人工智能驱动的智能合约：自动化决策的未来

译者 | 晶颜审校 | 重楼引言在实践中，诸多主体常受制于低效且易出错的传统合同流程。当交易因文书工作疏漏或人为失误而停滞时，往往会引发效率损耗与操作困境。而人工智能驱动的智能合约正为这一领域带来革新力量。

6/10/2025 8:26:00 AM

晶颜

大厂实践： LLM 加速大规模测试迁移

Airbnb最近完成了第一次由 LLM 驱动的大规模代码迁移，将 3500 个测试文件从 Enzyme 更新为 React测试库（RTL，React Testing Library）。最初我们估计这需要 1 年半的时间来手工完成，但通过使用前沿模型和强大的自动化组合，我们在 6 周内完成了整个迁移。本文将重点介绍从 Enzyme 迁移到 RTL 所面临的独特挑战，如何通过 LLM 解决这些挑战，以及如何构建迁移工具来执行 LLM 驱动的大规模迁移。

6/10/2025 8:15:00 AM

俞凡 DeepNoMind

我如何仅用 0.80 美元使用 Cursor 构建 17,000 行代码库

市面上出现过不少工具来来去去，但 Cursor 搭配 Claude Sonnet 4 这组合，绝对称得上革命性。三小时内，仅在 /lib 目录，就生成了超过 17,000 行代码，花费却不到一美元。要么 Cursor 在赔钱运营，就像我叔叔烤火鸡烤焦那样惨烈，要么我找到了一个让 AI 编码极度低价的秘密。

6/10/2025 8:10:59 AM

前端小智

AI驱动型企业数据治理的三大关键支柱

数据治理已从合规必要性转变为AI驱动型企业的战略支柱。随着数据量在云端、边缘和混合环境中激增，围绕静态策略和定期审计构建的传统治理模式正日益失效。 AI和自动化要求治理框架能够实时运行，动态适应监管要求、安全威胁和业务需求。

6/10/2025 7:11:00 AM

Yash Mehta

如何解决导致GenAI程序沉没的两个问题

在GenAI时代，发展轨迹呈现出典型的“进两步，退一步”模式。随着公司逐渐掌握GenAI的独特复杂性，初期取得的进展往往伴随着倒退和重复工作，在某些情况下，甚至可能威胁到整个开发进程的停滞。导致挫败感和延误的原因众多，从人才短缺到持续的数据质量问题不一而足，但根据我们过去两年与超过150家公司合作开展GenAI项目的经验来看，在构建过程中几乎总会遇到两个主要障碍：• 创新失败：流程限制、缺乏专注以及重复性的返工扼杀了创新。

6/10/2025 7:09:00 AM

Curt Jacobsen

小红书Hi Lab提出DeepEyes，探索O3「Thinking with Images」能力

OpenAI 的 o3 首次将图像直接注入推理过程，打破了传统文字思维链的边界，成为多模态推理新的里程碑。但是如何赋予模型这一能力，目前不得而知。因此，小红书联合西安交通大学，采用端到端强化学习，在完全不依赖监督微调（SFT）的前提下，激发了大模型“以图深思”的潜能，构建出多模态深度思考模型 DeepEyes，首次实现了与 o3 类似的用图像进行思考的能力，并已同步开源相关技术细节，让“用图像思考”不再是 OpenAI 专属。

6/10/2025 5:00:00 AM

RAG系列：切分优化 - 基于 Markdown 语法的文档切分

引言在RAG系列：解析优化 - 不同文件类型统一转换成Markdown一文中我们介绍了将不同文件类型统一解析转换成 Markdown 文件的好处。本文我们接着这篇文章解析转换后的 Markdown 文件，介绍下基于 Markdown 语法的文档切分方法。关于指标在RAG系列：系统评估 - 五个主流评估指标详解一文中我们介绍了评估 RAG 系统的五个主流指标，从本文开始，我会根据不同优化阶段来选择要重点关注的指标，不必要每次都关注五个指标的表现，这样可以让我们的优化更聚焦，通过优化每个阶段的重点指标，从而逐步优化系统的各个环节。

6/10/2025 4:30:00 AM

燃哥讲AI

如何在不陷入复杂性陷阱的情况下构建生产就绪的 AI 代理

一、从“大而全”到“小而精”的范式转变在医疗管理领域，当凌晨2点的紧急审批因某个隐蔽漏洞被驳回时，那些标榜“全能”的超级智能体架构正在暴露其致命缺陷。这些试图将资格审核、医疗必要性评估、申诉处理和医患沟通等功能一网打尽的“巨无霸”系统，如同希腊神话中试图吞噬一切的海妖卡律布狄斯，在演示阶段展现出雄心壮志，却在真实医疗场景中成为不可预测的风险黑洞。这种困境折射出人工智能领域的一个深层矛盾：我们是否应该追求“全能型”智能体，还是回归“专精化”的本质？

6/10/2025 4:18:00 AM

大模型之路

资讯热榜

DeepRare 重磅发布：全球首个可循证智能体诊断系统，直击医学Last Exam难题李沐B站更新了！教你手搓语音大模型，代码全开源还能在线试玩考试提分新工具：网页版 ChatGPT 测试“学习和掌握”功能，AI 助你成学霸我测试了100+案例，教你零基础复刻外网刷屏的 AI 视频（附提示词模板） AI时代设计师如何突围？D20峰会揭示未来设计师生存法则一盘大棋！OpenAI「截胡」IMO金牌，奥特曼为GPT-5献上「核弹级」预热终结Coding？ShellAgent三句话造出马斯克同款「AI女友」！ MinerU 2.0部署教程！

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌机器人数据大模型 Midjourney 开源智能用户 Meta 微软 GPT 学习技术图像 Gemini AI创作马斯克论文英伟达 Anthropic 智能体代码算法 Stable Diffusion 训练芯片开发者蛋白质腾讯生成式苹果 LLM 神经网络 AI新词 Claude 3D 研究生成机器学习 AI for Science xAI 计算人形机器人 Sora Agent AI视频 GPU 百度 AI设计华为搜索大语言模型工具场景字节跳动 RAG 大型语言模型具身智能预测深度学习伟达视觉 Transformer 神器推荐 AGI 亚马逊视频生成 Copilot DeepMind 模态架构 LLaMA

理论