理论

黄仁勋亲述：当年如何把“价值数十亿美金”的首台AI超算，亲手送给了OpenAI

老黄在法国巴黎最新演讲讲了一个小故事：OpenAI如何获得全世界第一台AI超级计算机。如今，当人们谈论这一波人工智能的浪潮时，英伟达（NVIDIA）和OpenAI是两个无法绕开的名字。前者是AI算力的基石，后者则用ChatGPT等产品引爆了全球的AI革命。

6/13/2025 9:02:18 AM

苹果AI发展深陷困境：Siri升级计划屡屡受挫，多次跳票面临尴尬境地

在科技行业全力奔赴 AI 未来的进程中，苹果公司却在 AI 赛道上举步维艰，尤其是其核心语音助手 Siri 的升级计划，更是麻烦不断，陷入了难以挣脱的泥沼。自 2024 年苹果在全球开发者大会（WWDC）上首次展示 Siri 智能升级功能，试图重塑其在 AI领域的形象以来，这场 AI 革新之旅就充满了坎坷。按照最初规划，新一代 Siri 功能将在 iOS 18.4 .

6/13/2025 8:53:44 AM

小菲

何恺明改进了谢赛宁的REPA：极大简化但性能依旧强悍

在建模复杂的数据分布方面，扩散生成模型表现出色，不过它的成果大体上与表征学习（representation learning）领域关联不大。通常来说，扩散模型的训练目标包含一个专注于重构（例如去噪）的回归项，但缺乏为生成学习到的表征的显式正则化项。这种图像生成范式与图像识别范式差异明显 —— 过去十年来，图像识别领域的核心主题和驱动力一直是表征学习。

6/13/2025 8:53:00 AM

CVPR 2025 多模态大一统：斯坦福 x 复旦提出符号主义建模生成式任务

共同第一作者包括：陈家棋，斯坦福大学访问学者，复旦大学硕士，研究方向为 LLM Agent和大一统模型；朱小烨，华南理工大学本科，研究方向为 LLM Agent、LLM 和强化学习；王越，康奈尔大学本科，研究方向为 LLM Agent、多模态语言模型。指导老师：Julian McAuley（UCSD）、Li-jia Li (IEEE Fellow, LiveX AI)。在人工智能内容创作蓬勃发展的今天，跨模态生成技术正在重塑艺术创作和视觉表达的边界。

6/13/2025 8:46:00 AM

CVPR 2025 | 多模态统一学习新范式来了，数据、模型、代码全部开源

本文第一作者杜恒辉为中国人民大学二年级硕士生，主要研究方向为多模态大模型视听场景理解与推理，长视频理解等，师从胡迪副教授。作者来自于中国人民大学，清华大学和北京腾讯 PCG AI 技术中心。我们人类生活在一个充满视觉和音频信息的世界中，近年来已经有很多工作利用这两个模态的信息来增强模型对视听场景的理解能力，衍生出了多种不同类型的任务，它们分别要求模型具备不同层面的能力。

6/13/2025 8:45:00 AM

断供竞品前，Claude早已联手Cursor？共创播客曝光：AI编程瓶颈在代码检查！CTO揭秘如何用Cursor开发Cursor

编译 | 伊风事情的发展越来越有趣了。 Anthropic 在断供 WindSurf 模型接入时公开表态：把 Claude 卖给 OpenAI 的产品，确实“感觉很怪”。这番话，让不少用户直接为 WindSurf 判了“技术死刑”。

6/13/2025 8:44:37 AM

伊风

OpenAI 正式发布 o3-Pro 模型

近日，OpenAI 发布了两项重磅更新：一是将 o3 模型的价格下调 80%；二是推出了全新的 o3-Pro 模型。 o3-Pro 是目前 OpenAI 最强大的多模态推理模型，擅长分步思考，在编码、数学、科学、视觉感知等领域表现尤为出色，能够提供更可靠、更深入的推理能力。 o3 系列与 GPT-4 系列的区别GPT-4.x：支持文本与图片，但缺乏深度推理能力GPT-4o：在 GPT-4.x 基础上新增音频处理功能，“o” 即“omni”全能o3 / o3-Pro：专注于多模态推理的“思考型”模型，主要以文本推理为主，图像支持有限；o3-Pro 在此基础上投入更多算力，思考更充分，输出质量更高这些推理型模型可配合 ChatGPT 的全套工具——从网页搜索、文件分析（包括 Python 运行）、视觉输入判断，到部分场景下的图像生成，皆能灵活调用。

6/13/2025 8:11:11 AM

前端小智

驯服AI幻觉：通过人在循环（HITL）测试减轻AI应用中的幻觉

译者 | 晶颜审校 | 重楼引言人工智能展现出的“自信表达”，实则暗藏风险。随着生成式人工智能解决方案在医疗、金融、法律、零售、教育等诸多领域广泛应用，自动化的强大吸引力令企业纷纷加速将大型语言模型整合至客户支持、医疗保健、法律及金融等应用场景之中。然而，在此过程中，一个潜在的隐患——人工智能幻觉问题，正悄然潜伏于每一次指令交互背后。

6/13/2025 8:06:41 AM

晶颜

如何在五分钟内免费做成宝宝播客？

译者 | 布加迪审校 | 重楼你和我一样是社交达人吗？总是在寻找新的潮流和吸引观众的创新方式？如果是的话，那么你来对地方了。

6/13/2025 7:58:58 AM

布加迪

arXiv 2025 | 无需增参！加权卷积wConv2D助力分类去噪双提升，传统CNN焕然一新！

一眼概览本文提出了一种无需增加参数的加权卷积算子，通过引入空间密度函数显著提升CNN在图像分类与去噪任务中的性能表现。核心问题传统卷积操作默认局部邻域内的像素等权贡献，忽视其空间位置差异，这限制了模型对空间特征的刻画能力。该研究旨在解决如何在不增加模型参数的前提下，使卷积操作能够自适应地感知像素间的空间结构，从而提升图像分类与去噪性能。

6/13/2025 4:12:00 AM

萍哥学AI

2025上半年大模型领域盘点：创新与争议交织前行

随着大模型的快速迭代，该技术不仅成为了驱动科技发展的重要动力，同时也是推动社会各领域智能化转型的关键力量。 2025年上半年，大模型领域迎来了快速发展与变革。从DeepSeek发布其推理大模型R1，到百度宣布大模型开源，再到多家厂商纷纷推出大模型一体机，这些事件共同推动了大模型技术在硬件解决方案上的显著进步。

6/13/2025 3:30:00 AM

AI 智能体到底应该如何构建？分享 Github 上收获 4k stars 的 12 条原则

1.AI Agent 是如何走到今天的1.1 我的观点仅供参考无论您是智能体领域的新手，还是像我这样固执的老兵，我都将试图说服您摒弃对 AI Agent 的大部分固有认知，退一步，从第一性原理（first principles）出发重新思考它们。（如果你错过了不久前 OpenAI 发布的内容，这里有个剧透预警：把更多智能体逻辑塞进 API 后面并非正解）2.智能体本质上是软件，让我们简要追溯其发展历程让我们回溯智能体的发展脉络。 2.1 60 年前这个阶段重点探讨的是有向图（DGs）及其无环版本 —— 有向无环图(DAGs)。

6/13/2025 3:11:00 AM

BaihaiI DP

深度学习中Batch Size对训练过程如何影响？

之前面试过程中被问到过两个问题：（1）深度学习中batch size的大小对训练过程的影响是什么样的？（2）有些时候不可避免地要用超大batch，比如人脸识别，可能每个batch要有几万甚至几十万张人脸图像，训练过程中超大batch有什么优缺点，如何尽可能地避免超大batch带来的负面影响？面试版回答在不考虑Batch Normalization的情况下（这种情况我们之后会在bn的文章里专门探讨），先给个自己当时回答的答案吧（相对来说学究一点）：(1) 不考虑bn的情况下，batch size的大小决定了深度学习训练过程中的完成每个epoch所需的时间和每次迭代(iteration)之间梯度的平滑程度。

6/13/2025 2:55:00 AM

grok

RAG：2025年检索增强生成前沿技术完全指南

一、RAG技术的核心突破与行业影响在生成式人工智能爆发的今天，检索增强生成（Retrieval-Augmented Generation, RAG）正以其独特的技术架构，成为连接静态知识库与动态生成能力的桥梁。这项诞生于2020年的创新技术，通过将信息检索（Retrieval）与文本生成（Generation）解耦又融合的设计，突破了传统语言模型“幻觉”问题的桎梏，为构建可信、可控、可扩展的AI系统奠定了基础。根据Gartner最新报告，2024年全球已有45%的企业在智能客服、数据分析等场景中部署RAG系统，预计到2025年这一比例将突破68%。

6/13/2025 2:25:00 AM

大模型之路

调查报告：2026年AI投资占总IT投资的比例将达20%

随着人工智能（AI）技术的快速发展，企业对其应用的重视程度也在不断提升。根据IBM商业价值研究所的最新研究，企业预计到年底前人工智能驱动的工作流程将从目前的3%增长到25%，显示出AI在核心业务中的重要性日益增加。这项名为“AI项目到利润”的研究调查了全球2900名高管，揭示了企业从实验性使用AI向将AI作为核心业务运营的战略转变。

6/13/2025 2:00:00 AM

GraphRAG太慢LightRAG延迟高？华东师大新方法一招破解双重难题

GraphRAG的索引速度慢，LightRAG的查询延迟高？这些影响效率的难题，现在终于迎来改进——由华东师范大学李翔老师带领的的Planing Lab团队推出高效解决方法E²GraphRAG。该方法在大部分测试中接近了最优的GraphRAG方法。

6/13/2025 1:33:00 AM

AgentCPM-GUI：强化微调（RFT）赋能的移动设备 GUI 智能体

大家好，我是肆〇柒。当下，移动设备已成为人们日常生活与工作的核心交互枢纽。从早起解锁手机查看消息，到工作时在各类应用间切换处理任务，图形用户界面（GUI）操作的高效性与智能性正深刻影响着我们的 productivity（生产力）与 accessibility（可访问性）。

6/13/2025 1:30:00 AM

肆零柒

当人工智能推理遭遇瓶颈：大型推理模型的崩溃

最近，我们听说人工智能已经学会了思考。 OpenAI 的 o1 系列、DeepSeek 的 R1、Claude 的思维模型——这些“大型推理模型”声势浩大地问世，有望在机器解决复杂问题方面取得突破。与之前那些仅仅通过模式匹配完成任务的模型不同，这些系统显然能够进行“真正的”推理，甚至拥有与人类思维相符的内心独白。

6/13/2025 1:00:00 AM

资讯热榜

李沐B站更新了！教你手搓语音大模型，代码全开源还能在线试玩 DeepRare 重磅发布：全球首个可循证智能体诊断系统，直击医学Last Exam难题考试提分新工具：网页版 ChatGPT 测试“学习和掌握”功能，AI 助你成学霸我测试了100+案例，教你零基础复刻外网刷屏的 AI 视频（附提示词模板） AI时代设计师如何突围？D20峰会揭示未来设计师生存法则终结Coding？ShellAgent三句话造出马斯克同款「AI女友」！一盘大棋！OpenAI「截胡」IMO金牌，奥特曼为GPT-5献上「核弹级」预热 Instacart CEO即将加盟 OpenAI，领导应用部门

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌机器人数据大模型 Midjourney 开源智能用户 Meta 微软 GPT 学习技术图像 Gemini AI创作马斯克论文英伟达 Anthropic 智能体代码算法 Stable Diffusion 训练芯片开发者蛋白质腾讯生成式苹果 LLM 神经网络 AI新词 Claude 3D 研究生成机器学习 AI for Science xAI 计算人形机器人 Sora Agent AI视频 GPU 百度 AI设计华为搜索大语言模型工具场景字节跳动 RAG 大型语言模型预测具身智能深度学习伟达视觉 Transformer 神器推荐 AGI 亚马逊视频生成 Copilot DeepMind 模态架构 LLaMA