资讯列表

分类

标签

CVPR 2025 多模态大一统：斯坦福 x 复旦提出符号主义建模生成式任务

CVPR 2025 多模态大一统：斯坦福 x 复旦提出符号主义建模生成式任务

共同第一作者包括：陈家棋，斯坦福大学访问学者，复旦大学硕士，研究方向为 LLM Agent和大一统模型；朱小烨，华南理工大学本科，研究方向为 LLM Agent、LLM 和强化学习；王越，康奈尔大学本科，研究方向为 LLM Agent、多模态语言模型。指导老师：Julian McAuley（UCSD）、Li-jia Li (IEEE Fellow, LiveX AI)。在人工智能内容创作蓬勃发展的今天，跨模态生成技术正在重塑艺术创作和视觉表达的边界。

6/13/2025 8:46:00 AM

CVPR 2025 | 多模态统一学习新范式来了，数据、模型、代码全部开源

CVPR 2025 | 多模态统一学习新范式来了，数据、模型、代码全部开源

本文第一作者杜恒辉为中国人民大学二年级硕士生，主要研究方向为多模态大模型视听场景理解与推理，长视频理解等，师从胡迪副教授。作者来自于中国人民大学，清华大学和北京腾讯 PCG AI 技术中心。我们人类生活在一个充满视觉和音频信息的世界中，近年来已经有很多工作利用这两个模态的信息来增强模型对视听场景的理解能力，衍生出了多种不同类型的任务，它们分别要求模型具备不同层面的能力。

6/13/2025 8:45:00 AM

断供竞品前，Claude早已联手Cursor？共创播客曝光：AI编程瓶颈在代码检查！CTO揭秘如何用Cursor开发Cursor

断供竞品前，Claude早已联手Cursor？共创播客曝光：AI编程瓶颈在代码检查！CTO揭秘如何用Cursor开发Cursor

编译 | 伊风事情的发展越来越有趣了。 Anthropic 在断供 WindSurf 模型接入时公开表态：把 Claude 卖给 OpenAI 的产品，确实“感觉很怪”。这番话，让不少用户直接为 WindSurf 判了“技术死刑”。

6/13/2025 8:44:37 AM 伊风

OpenAI 正式发布 o3-Pro 模型

OpenAI 正式发布 o3-Pro 模型

近日，OpenAI 发布了两项重磅更新：一是将 o3 模型的价格下调 80%；二是推出了全新的 o3-Pro 模型。 o3-Pro 是目前 OpenAI 最强大的多模态推理模型，擅长分步思考，在编码、数学、科学、视觉感知等领域表现尤为出色，能够提供更可靠、更深入的推理能力。 o3 系列与 GPT-4 系列的区别GPT-4.x：支持文本与图片，但缺乏深度推理能力GPT-4o：在 GPT-4.x 基础上新增音频处理功能，“o” 即“omni”全能o3 / o3-Pro：专注于多模态推理的“思考型”模型，主要以文本推理为主，图像支持有限；o3-Pro 在此基础上投入更多算力，思考更充分，输出质量更高这些推理型模型可配合 ChatGPT 的全套工具——从网页搜索、文件分析（包括 Python 运行）、视觉输入判断，到部分场景下的图像生成，皆能灵活调用。

6/13/2025 8:11:11 AM 前端小智

驯服AI幻觉：通过人在循环（HITL）测试减轻AI应用中的幻觉

驯服AI幻觉：通过人在循环（HITL）测试减轻AI应用中的幻觉

译者 | 晶颜审校 | 重楼引言人工智能展现出的“自信表达”，实则暗藏风险。随着生成式人工智能解决方案在医疗、金融、法律、零售、教育等诸多领域广泛应用，自动化的强大吸引力令企业纷纷加速将大型语言模型整合至客户支持、医疗保健、法律及金融等应用场景之中。然而，在此过程中，一个潜在的隐患——人工智能幻觉问题，正悄然潜伏于每一次指令交互背后。

6/13/2025 8:06:41 AM 晶颜

如何在五分钟内免费做成宝宝播客？

如何在五分钟内免费做成宝宝播客？

译者 | 布加迪审校 | 重楼你和我一样是社交达人吗？总是在寻找新的潮流和吸引观众的创新方式？如果是的话，那么你来对地方了。

6/13/2025 7:58:58 AM 布加迪

特斯拉起诉前 Optimus 机器人工程师，指控其窃取商业机密

特斯拉起诉前 Optimus 机器人工程师，指控其窃取商业机密

根据诉状，他于2022年8月加入特斯拉，并于2024年9月离职。在此期间，他曾使用两部个人手机下载Optimus相关的机密资料。

6/13/2025 7:16:25 AM 清源

arXiv 2025 | 无需增参！加权卷积wConv2D助力分类去噪双提升，传统CNN焕然一新！

arXiv 2025 | 无需增参！加权卷积wConv2D助力分类去噪双提升，传统CNN焕然一新！

一眼概览本文提出了一种无需增加参数的加权卷积算子，通过引入空间密度函数显著提升CNN在图像分类与去噪任务中的性能表现。核心问题传统卷积操作默认局部邻域内的像素等权贡献，忽视其空间位置差异，这限制了模型对空间特征的刻画能力。该研究旨在解决如何在不增加模型参数的前提下，使卷积操作能够自适应地感知像素间的空间结构，从而提升图像分类与去噪性能。

6/13/2025 4:12:00 AM 萍哥学AI

2025上半年大模型领域盘点：创新与争议交织前行

2025上半年大模型领域盘点：创新与争议交织前行

随着大模型的快速迭代，该技术不仅成为了驱动科技发展的重要动力，同时也是推动社会各领域智能化转型的关键力量。 2025年上半年，大模型领域迎来了快速发展与变革。从DeepSeek发布其推理大模型R1，到百度宣布大模型开源，再到多家厂商纷纷推出大模型一体机，这些事件共同推动了大模型技术在硬件解决方案上的显著进步。

6/13/2025 3:30:00 AM Yu

AI 智能体到底应该如何构建？分享 Github 上收获 4k stars 的 12 条原则

AI 智能体到底应该如何构建？分享 Github 上收获 4k stars 的 12 条原则

1.AI Agent 是如何走到今天的1.1 我的观点仅供参考无论您是智能体领域的新手，还是像我这样固执的老兵，我都将试图说服您摒弃对 AI Agent 的大部分固有认知，退一步，从第一性原理（first principles）出发重新思考它们。（如果你错过了不久前 OpenAI 发布的内容，这里有个剧透预警：把更多智能体逻辑塞进 API 后面并非正解）2.智能体本质上是软件，让我们简要追溯其发展历程让我们回溯智能体的发展脉络。 2.1 60 年前这个阶段重点探讨的是有向图（DGs）及其无环版本 —— 有向无环图(DAGs)。

6/13/2025 3:11:00 AM BaihaiI DP

OpenAI 奥尔特曼宣布将使用 AMD 的 MI300X 和 MI450 AI 芯片，苏姿丰首次透露 MI500

OpenAI 奥尔特曼宣布将使用 AMD 的 MI300X 和 MI450 AI 芯片，苏姿丰首次透露 MI500

在今日凌晨的 AMD Advancing AI 2025 活动尾声，OpenAI 首席执行官萨姆・奥尔特曼（Sam Altman）惊喜登台。

6/13/2025 3:02:19 AM 汪淼

深度学习中Batch Size对训练过程如何影响？

深度学习中Batch Size对训练过程如何影响？

之前面试过程中被问到过两个问题：（1）深度学习中batch size的大小对训练过程的影响是什么样的？（2）有些时候不可避免地要用超大batch，比如人脸识别，可能每个batch要有几万甚至几十万张人脸图像，训练过程中超大batch有什么优缺点，如何尽可能地避免超大batch带来的负面影响？面试版回答在不考虑Batch Normalization的情况下（这种情况我们之后会在bn的文章里专门探讨），先给个自己当时回答的答案吧（相对来说学究一点）：(1) 不考虑bn的情况下，batch size的大小决定了深度学习训练过程中的完成每个epoch所需的时间和每次迭代(iteration)之间梯度的平滑程度。

6/13/2025 2:55:00 AM grok

AMD 苏姿丰：AI 数据中心加速器市场将在 2028 年增长至 5000 亿美元

AMD 苏姿丰：AI 数据中心加速器市场将在 2028 年增长至 5000 亿美元

在今日凌晨的 AMD Advancing AI 2025 活动中，苏姿丰透露，数据中心加速器市场正在以惊人的 60% 复合年增长率增长，预计这一数字将在未来几年保持稳定。

6/13/2025 2:48:46 AM 汪淼

DeepSeek R1 推理性能提升 3.8 倍，AMD 发布下一代开源软件栈技术 ROCm 7

DeepSeek R1 推理性能提升 3.8 倍，AMD 发布下一代开源软件栈技术 ROCm 7

在今日凌晨的 AMD Advancing AI 2025 活动中，AMD 正式推出其下一代开源软件栈技术 ROCm 7，进一步加速 AI 与开发者生产力。

6/13/2025 2:41:45 AM 汪淼

AMD Advancing AI 2025 大会如期而至：重磅发布 Instinct MI350 系列 GPU 产品，推理性能提升达 35 倍

AMD Advancing AI 2025 大会如期而至：重磅发布 Instinct MI350 系列 GPU 产品，推理性能提升达 35 倍

Instinct MI350 系列包括 Instinct MI350X 和 MI355X GPU 及平台，实现了每代 4 倍的 AI 计算能力提升和 35 倍的推理性能飞跃。

6/13/2025 2:40:20 AM 汐元

RAG：2025年检索增强生成前沿技术完全指南

RAG：2025年检索增强生成前沿技术完全指南

一、RAG技术的核心突破与行业影响在生成式人工智能爆发的今天，检索增强生成（Retrieval-Augmented Generation, RAG）正以其独特的技术架构，成为连接静态知识库与动态生成能力的桥梁。这项诞生于2020年的创新技术，通过将信息检索（Retrieval）与文本生成（Generation）解耦又融合的设计，突破了传统语言模型“幻觉”问题的桎梏，为构建可信、可控、可扩展的AI系统奠定了基础。根据Gartner最新报告，2024年全球已有45%的企业在智能客服、数据分析等场景中部署RAG系统，预计到2025年这一比例将突破68%。

6/13/2025 2:25:00 AM 大模型之路

调查报告：2026年AI投资占总IT投资的比例将达20%

调查报告：2026年AI投资占总IT投资的比例将达20%

随着人工智能（AI）技术的快速发展，企业对其应用的重视程度也在不断提升。根据IBM商业价值研究所的最新研究，企业预计到年底前人工智能驱动的工作流程将从目前的3%增长到25%，显示出AI在核心业务中的重要性日益增加。这项名为“AI项目到利润”的研究调查了全球2900名高管，揭示了企业从实验性使用AI向将AI作为核心业务运营的战略转变。

6/13/2025 2:00:00 AM

如何用AI打造海外本地化人物，提升40%的点击率？（附规范手册）

如何用AI打造海外本地化人物，提升40%的点击率？（附规范手册）

在营销活动中，视觉吸引力是提升用户点击率的关键。过去，我们用强品牌、轻质感的方式向全球市场展示卖点，针对不同市场用户审美偏好，差异化设计。同时，我们也一直在思考如何持续不断提升活动 KV 对用户的吸引力，是否还能探索出一些新的可能性？

6/13/2025 1:44:06 AM TripDesign 团队

资讯热榜

AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免费！让图片放大不失真的位图转矢量图神器 Tmttool GGUF 是什么？一文看懂大模型里最火的模型格式后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品 Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求 Sora、可灵、即梦哪家强？AI视频软件深度测评！

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉