理论

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

视觉语言模型（VLM）正经历从「感知」到「认知」的关键跃迁。当OpenAI的o3系列通过「图像思维」（Thinking with Images）让模型学会缩放、标记视觉区域时，我们看到了多模态交互的全新可能。然而，当前主流VLM仍被困在「文本茧房」中——依赖文本token间接翻译视觉信息，在高清图像中的微小物体、视频里的动态细节等场景中，常常因缺乏直接视觉操作能力而「视而不见」。

6/10/2025 9:07:00 AM

无需SFT也不用RL，样本级推理优化神器SLOT来了，准确率轻松+10%

试想一下，如果你参加考试时，可以在答题前花几秒钟「适应」一下这道具体的题目，你的表现会不会更好？这正是西湖大学研究团队在最新论文中提出的核心思想。他们开发的 SLOT（Sample-specific Language Model Optimization at Test-time）方法，把每个输入 prompt 本身当作一份「迷你训练数据」，让模型在生成答案前先「学习」理解这个具体问题。

6/10/2025 9:05:00 AM

大模型能够自发形成“人类思维地图”！Nature子刊重磅研究揭示多模态大模型类脑机制

大模型≠随机鹦鹉！ Nature子刊最新研究证明：大模型内部存在着类似人类对现实世界概念的理解。 LLM能理解现实世界和各种抽象概念吗？

6/10/2025 9:04:00 AM

破解自驾数据难题！毫米波雷达可控仿真技术新框架来了

以神经网络为核心引擎，让AI承担雷达仿真数据生成任务，还实现对雷达物理特性的建模与控制——这就是光轮智能联合清华AIR、LeddarTech等机构提出的全新自动驾驶神经渲染框架SA-Radar。在无需雷达具体细节的情况下，它能实现可控且逼真的雷达仿真，支持场景的灵活编辑——包括雷达属性修改、演员移除以及新视角合成，并能显著增强多种下游任务。作为高级驾驶辅助系统（ADAS）中扮演着至关重要角色的雷达，其相关研究和开发仍面临数据获取的挑战。

6/10/2025 8:45:00 AM

李飞飞自曝详细创业经历：五年前因眼睛受伤，坚定要做世界模型

因为眼睛受伤暂时失去立体视觉，李飞飞更加坚定了做世界模型的决心。在a16z的最新播客节目中，“AI教母”李飞飞讲述了五年前因为一次角膜损伤暂时失去立体视觉的经历：尽管凭借多年经验能想象出三维世界，但一只眼睛看东西时，我开始害怕开车。但作为一名科学家，她也把这次经历当成一次宝贵的“实验”机会。

6/10/2025 8:43:00 AM

生成式 AI 在 B 端软件中实践的思考

我一直认为 C 端软件和 AI 的结合会更顺畅一些，例如，笔记工具“墨问”最近推出了 MCP 功能，允许我在各种客户端中与 AI 交互，并将结果通过 MCP 保存至其中。这是因为大部分情况下，C 端对准确性的容忍度更高。 B 端软件则不同，其对准确性要求极高，尤其在金融、医疗等行业。

6/10/2025 8:34:47 AM

七种方式让你的AI编码结果更靠谱

译者 | 核子可乐审校 | 重楼企业在积极引入AI的同时，也希望雇用更多工程师，期望开发者能够借AI之力将产出“提升10倍”。但要真正高效运用AI编码助手，其中也有不少门道。首先是AI编码助手的固有局限，其存在大量不确定性，因此容易引发种种难以避免的意外行为，例如随机删除代码或引入逻辑错误。

6/10/2025 8:30:50 AM

核子可乐

人工智能驱动的智能合约：自动化决策的未来

译者 | 晶颜审校 | 重楼引言在实践中，诸多主体常受制于低效且易出错的传统合同流程。当交易因文书工作疏漏或人为失误而停滞时，往往会引发效率损耗与操作困境。而人工智能驱动的智能合约正为这一领域带来革新力量。

6/10/2025 8:26:00 AM

晶颜

大厂实践： LLM 加速大规模测试迁移

Airbnb最近完成了第一次由 LLM 驱动的大规模代码迁移，将 3500 个测试文件从 Enzyme 更新为 React测试库（RTL，React Testing Library）。最初我们估计这需要 1 年半的时间来手工完成，但通过使用前沿模型和强大的自动化组合，我们在 6 周内完成了整个迁移。本文将重点介绍从 Enzyme 迁移到 RTL 所面临的独特挑战，如何通过 LLM 解决这些挑战，以及如何构建迁移工具来执行 LLM 驱动的大规模迁移。

6/10/2025 8:15:00 AM

俞凡 DeepNoMind

我如何仅用 0.80 美元使用 Cursor 构建 17,000 行代码库

市面上出现过不少工具来来去去，但 Cursor 搭配 Claude Sonnet 4 这组合，绝对称得上革命性。三小时内，仅在 /lib 目录，就生成了超过 17,000 行代码，花费却不到一美元。要么 Cursor 在赔钱运营，就像我叔叔烤火鸡烤焦那样惨烈，要么我找到了一个让 AI 编码极度低价的秘密。

6/10/2025 8:10:59 AM

前端小智

AI驱动型企业数据治理的三大关键支柱

数据治理已从合规必要性转变为AI驱动型企业的战略支柱。随着数据量在云端、边缘和混合环境中激增，围绕静态策略和定期审计构建的传统治理模式正日益失效。 AI和自动化要求治理框架能够实时运行，动态适应监管要求、安全威胁和业务需求。

6/10/2025 7:11:00 AM

Yash Mehta

如何解决导致GenAI程序沉没的两个问题

在GenAI时代，发展轨迹呈现出典型的“进两步，退一步”模式。随着公司逐渐掌握GenAI的独特复杂性，初期取得的进展往往伴随着倒退和重复工作，在某些情况下，甚至可能威胁到整个开发进程的停滞。导致挫败感和延误的原因众多，从人才短缺到持续的数据质量问题不一而足，但根据我们过去两年与超过150家公司合作开展GenAI项目的经验来看，在构建过程中几乎总会遇到两个主要障碍：• 创新失败：流程限制、缺乏专注以及重复性的返工扼杀了创新。

6/10/2025 7:09:00 AM

Curt Jacobsen

小红书Hi Lab提出DeepEyes，探索O3「Thinking with Images」能力

OpenAI 的 o3 首次将图像直接注入推理过程，打破了传统文字思维链的边界，成为多模态推理新的里程碑。但是如何赋予模型这一能力，目前不得而知。因此，小红书联合西安交通大学，采用端到端强化学习，在完全不依赖监督微调（SFT）的前提下，激发了大模型“以图深思”的潜能，构建出多模态深度思考模型 DeepEyes，首次实现了与 o3 类似的用图像进行思考的能力，并已同步开源相关技术细节，让“用图像思考”不再是 OpenAI 专属。

6/10/2025 5:00:00 AM

RAG系列：切分优化 - 基于 Markdown 语法的文档切分

引言在RAG系列：解析优化 - 不同文件类型统一转换成Markdown一文中我们介绍了将不同文件类型统一解析转换成 Markdown 文件的好处。本文我们接着这篇文章解析转换后的 Markdown 文件，介绍下基于 Markdown 语法的文档切分方法。关于指标在RAG系列：系统评估 - 五个主流评估指标详解一文中我们介绍了评估 RAG 系统的五个主流指标，从本文开始，我会根据不同优化阶段来选择要重点关注的指标，不必要每次都关注五个指标的表现，这样可以让我们的优化更聚焦，通过优化每个阶段的重点指标，从而逐步优化系统的各个环节。

6/10/2025 4:30:00 AM

燃哥讲AI

如何在不陷入复杂性陷阱的情况下构建生产就绪的 AI 代理

一、从“大而全”到“小而精”的范式转变在医疗管理领域，当凌晨2点的紧急审批因某个隐蔽漏洞被驳回时，那些标榜“全能”的超级智能体架构正在暴露其致命缺陷。这些试图将资格审核、医疗必要性评估、申诉处理和医患沟通等功能一网打尽的“巨无霸”系统，如同希腊神话中试图吞噬一切的海妖卡律布狄斯，在演示阶段展现出雄心壮志，却在真实医疗场景中成为不可预测的风险黑洞。这种困境折射出人工智能领域的一个深层矛盾：我们是否应该追求“全能型”智能体，还是回归“专精化”的本质？

6/10/2025 4:18:00 AM

大模型之路

RL 驱动 LLM 智能体：ML-Agent 创新自主机器学习工程

大家好，我是肆〇柒。这两天看到一篇关于自主进化智能体的论文，本篇就让我们一起了解一下这个机器学习工程的的研究 ——ML-Agent。在当下，机器学习工程已成为科技创新的关键驱动力。

6/10/2025 4:00:00 AM

肆零柒

小红书hi lab首次开源文本大模型，14个checkpoint覆盖Pretrain与Instruct阶段

01、简介小红书hi lab（Humane Intelligence Lab，人文智能实验室）团队首次开源文本大模型 dots.llm1。 dots.llm1是一个中等规模的Mixture of Experts (MoE)文本大模型，在较小激活量下取得了不错的效果。该模型充分融合了团队在数据处理和模型训练效率方面的技术积累，并借鉴了社区关于 MoE 的最新开源成果。

6/10/2025 3:30:00 AM

多模态推理模型（LMRM）：从感知到推理的演变

大家好，我是肆〇柒。当下，人工智能正以前所未有的速度改变着我们的生活与工作方式。其中，推理作为人工智能的核心能力之一，赋予了智能体在复杂环境中做出决策、得出结论以及进行知识泛化的能力。

6/10/2025 3:30:00 AM

肆零柒

资讯热榜

量大管饱！我整理了10个好用到爆的即梦4.0进阶玩法姚顺雨离职OpenAI，「亿元入职腾讯」传闻引爆AI圈，鹅厂辟谣了 4大模式+3大场景！写给B端设计师的AI上手指南狠人研究公开！ChatGPT底层记忆系统终于被逆向了！没有RAG！用户设备信息、使用习惯统统存下来，用户知识记忆是新的研究热点！腾讯辟谣！OpenAI 前研究员姚顺雨 “百万年薪” 入职传闻不实 OpenAI与英伟达联手巨资投资英国数据中心 OpenAI与微软达成非约束性协议：允许将营利部门转型公益股份公司迎战软件3.0时代：新范式、新挑战、新工程

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源智能 Meta 用户微软 GPT 学习技术 AI新词图像 Gemini 智能体马斯克 AI创作 Anthropic 英伟达论文训练代码算法 LLM Stable Diffusion 芯片腾讯苹果蛋白质 Claude 开发者 AI for Science Agent 生成式神经网络机器学习 3D xAI 研究人形机器人生成 AI视频百度工具计算 Sora GPU 华为大语言模型 RAG 具身智能 AI设计字节跳动搜索大型语言模型场景 AGI 深度学习视频生成预测视觉伟达架构 Transformer 编程神器推荐 DeepMind 亚马逊特斯拉 AI模型