理论

搞不懂CUDA的人有救了，Devin开发商开源Kevin，强化学习生成CUDA内核

搞不懂CUDA的人有救了，Devin开发商开源Kevin，强化学习生成CUDA内核

本周三，知名 AI 创业公司，曾发布「全球首个 AI 软件工程师」的 Cognition AI 开源了一款使用强化学习，用于编写 CUDA 内核的大模型 Kevin-32B。 Kevin-32B 基于 QwQ-32B 在 KernelBench 数据集上使用 GRPO 进行了多轮强化学习训练，实现了超越 o3 和 o4-mini 的顶级推理表现。对此，机器学习社区表现出了极大的兴趣。

5/7/2025 1:46:34 PM

公开模型一切，优于DeepSeek-R1，英伟达开源Llama-Nemotron家族

公开模型一切，优于DeepSeek-R1，英伟达开源Llama-Nemotron家族

在大模型飞速发展的今天，推理能力作为衡量模型智能的关键指标，更是各家 AI 企业竞相追逐的焦点。但近年来，推理效率已成为模型部署和性能的关键限制因素。基于此，英伟达推出了 Llama-Nemotron 系列模型（基于 Meta AI 的 Llama 模型构建）—— 一个面向高效推理的大模型开放家族，具备卓越的推理能力、推理效率，并采用对企业友好的开放许可方式。

5/7/2025 10:12:52 AM 机器之心

英伟达提出最强「描述一切」模型 (DAM)，可生成图像或视频特定区域的详细描述，拿下7个基准SOTA！

英伟达提出最强「描述一切」模型 (DAM)，可生成图像或视频特定区域的详细描述，拿下7个基准SOTA！

英伟达提出「描述一切」模型 (DAM)，这是一个强大的多模态大型语言模型，可以生成图像或视频中特定区域的详细描述。用户可以使用点、框、涂鸦或蒙版来指定区域，DAM 将提供这些区域的丰富且符合上下文的描述。相关链接论文：：：：详细的本地化图像和视频字幕详细本地化字幕 (DLC)详细局部字幕 (DLC) 的任务是生成图像中特定区域的全面且情境感知的描述。

5/7/2025 10:10:36 AM

南洋理工 & 牛津 & 新加坡理工提出Amodal3R，可从遮挡 2D 图像重建完整 3D 资产，3D生成也卷起来了！

南洋理工 & 牛津 & 新加坡理工提出Amodal3R，可从遮挡 2D 图像重建完整 3D 资产，3D生成也卷起来了！

Amodal3R 是一种条件式 3D 生成模型，能够从部分可见的 2D 物体图像中推测并重建完整的 3D 形态和外观，显著提升遮挡场景下的 3D 重建质量。给定图像中部分可见的物体，Amodal3R 重建具有合理几何形状和合理外观的语义上有意义的 3D 资产。相关链接论文：：：即将开放...模型：：的示例结果。

5/7/2025 10:09:49 AM AIGC Studio

掷30亿美元，OpenAI史上最大收购案！

掷30亿美元，OpenAI史上最大收购案！

OpenAI史上最大一笔收购即将敲定。彭博爆料称，OpenAI将豪掷30亿美元，吞并了爆火编码神器Windsurf（前身为Codeium）。此前，早有外媒曝出了这笔交易，目前离最终达成接近尾声。

5/7/2025 10:09:28 AM 新智元

Gemini 2.5 Pro再更新！编程能力屠榜！一句话、一张草图变应用

Gemini 2.5 Pro再更新！编程能力屠榜！一句话、一张草图变应用

出品 | 51CTO技术栈（微信号：blog51cto）AI 编码模型的新王者登基了！今天，Google 旗下的 DeepMind AI 研究部门正式发布了 Gemini 2.5 Pro “I/O” 版，这是今年 3 月推出的 Gemini 2.5 Pro 多模态大语言模型（LLM）的更新版本。 DeepMind CEO Demis Hassabis 在 X 上表示：“这是我们迄今为止打造的最佳编码模型！

5/7/2025 10:09:08 AM

刚刚，Gemini 2.5 Pro升级，成编程模型新王

刚刚，Gemini 2.5 Pro升级，成编程模型新王

你的默认编程模型是什么？或许可以换一换了。刚刚，Google DeepMind 发布了 Gemini 2.5 Pro 的最新更新版本：Gemini 2.5 Pro (I/O edition)。

5/7/2025 10:01:35 AM

微软正式开源UFO²，Windows桌面迈入「AgentOS 时代」

微软正式开源UFO²，Windows桌面迈入「AgentOS 时代」

本论文第一作者为微软 DKI 团队的 Chaoyun Zhang，其为 Windows 平台首个智能体系统 ——UFO 的核心开发者，该项目已在 GitHub 上开源并获得约 7,000 Stars，在社区中引发广泛关注。同时，他也是一篇超过 90 页的 GUI Agent 综述文章的主要撰写者，系统梳理了该领域的关键进展与技术框架。其余项目的主要贡献者亦均来自微软 DKI 团队，具备深厚的研究与工程背景。

5/7/2025 9:16:00 AM

谷歌突发大招刷爆AI编程榜！网友：不用买Cursor了

谷歌突发大招刷爆AI编程榜！网友：不用买Cursor了

因为大家太过热情， Gemini 2.5提前重磅更新——史上最强编码模型Gemini 2.5 Pro Preview的I/O版。只需一张手绘的草图，就可以构建一个「绘图变音频」的网页版应用。其他游戏、对象模拟等等也都可以通过一句提示完全搞定。

5/7/2025 9:14:26 AM

AI再破2000年前「上古卷轴」！古希腊著作原文首次重见天日

AI再破2000年前「上古卷轴」！古希腊著作原文首次重见天日

AI再建一功！火山灰掩埋的古代智慧，正在被AI一点点复活。 2025年5月6日，维苏威挑战赛（Vesuvius Challenge）迎来历史性突破——研究人员首次非侵入性地读取了仍然卷着的编号为PHerc.

5/7/2025 9:14:00 AM

ICML 2025 | 注意力机制中的极大值：破解大语言模型上下文理解的关键

ICML 2025 | 注意力机制中的极大值：破解大语言模型上下文理解的关键

大型语言模型（LLMs）在上下文知识理解方面取得了令人瞩目的成功。近日，一项来自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》揭示了大型语言模型中一个重要现象：在注意力机制的查询 (Q) 和键 (K) 表示中存在非常集中的极大值，而在值 (V) 表示中却没有这种模式。这一现象在使用旋转位置编码 (RoPE) 的现代 Transformer 模型中普遍存在，对我们理解 LLM 内部工作机制具有重要意义。

5/7/2025 9:12:00 AM

GPT-4o图像生成的「核燃料」找到了！万字长文拆解潜在变量，网友：原来AI在另一个维度作画

GPT-4o图像生成的「核燃料」找到了！万字长文拆解潜在变量，网友：原来AI在另一个维度作画

上个月， GPT-4o 的图像生成功能爆火，掀起了以吉卜力风为代表的广泛讨论，生成式 AI 的热潮再次席卷网络。而在这股浪潮背后，潜在空间（Latent Space）作为生成模型的核心驱动力，点燃了图像与视频创作的无限想象。知名研究者 Andrej Karpathy 最近转发了一篇来自 Google DeepMind 研究科学家 Sander Dielman 的博客文章，探讨了生成模型（如图像、音频和视频生成模型）如何通过利用潜在空间来提高生成效率和质量。

5/7/2025 9:06:00 AM

微软将大量AI功能、智能体集成在Windows11，全民AI时代来了

微软将大量AI功能、智能体集成在Windows11，全民AI时代来了

今天凌晨，微软在官网发布了以AI为主题的新版Windows 11。本次集成的AI功能非常多，涵盖搜索、设置、文件管理、画图、截图、Copilot等，同时还推出了以Copilot PC为主的全新Surface商务笔记本。下面「AIGC开放社区」将根据官方内容为大家详细解读这些功能。

5/7/2025 9:01:00 AM

H-MBA层次化MamBa模型如何突破自动驾驶视频理解瓶颈？这三大创新亮点揭示答案！

H-MBA层次化MamBa模型如何突破自动驾驶视频理解瓶颈？这三大创新亮点揭示答案！

一眼概览：H-MBA (Hierarchical MamBa Adaptation) 提出了一个创新的多模态视频理解框架，通过结合高低时域分辨率，显著提升了自动驾驶场景中的视频理解和风险物体检测性能。核心问题：现有的多模态大语言模型（MLLMs）在处理自动驾驶中复杂的时空动态视频时，性能有限。特别是在捕捉背景变化、车辆和行人运动等方面，现有方法难以做到准确的时空理解。

5/7/2025 8:49:17 AM 萍哥学AI

RAG 中的语义分块：实现更优的上下文检索

RAG 中的语义分块：实现更优的上下文检索

检索增强生成（RAG）技术异军突起，席卷了整个大语言模型领域。通过将大语言模型（LLMs）的强大能力与外部知识检索相结合，RAG使得模型能够生成准确且有依据的回复，即便在专业领域也不例外。在每一个表现卓越的RAG流程背后，都有一个默默发挥关键作用的 “英雄”：分块技术，尤其是语义分块。

5/7/2025 8:35:11 AM 大模型之路

SmallRye大模型简介：使用Langchain4J轻松向应用内引入AI服务

SmallRye大模型简介：使用Langchain4J轻松向应用内引入AI服务

译者 | 核子可乐审校 | 重楼Langchain4J解决了哪些问题？ Langchain4J 本质上是为 Java 开发者打造的工具箱，旨在简化向高级语言中集成 AI 功能（如聊天机器人或文本生成器）的过程，同时屏蔽底层复杂细节。想象一下：我们想要构建一个能回答问题、生成内容或模拟人类对话的智能应用。

5/7/2025 8:14:58 AM 核子可乐

当人工智能脱离人类监督：自维持系统的网络安全风险

当人工智能脱离人类监督：自维持系统的网络安全风险

译者 | 晶颜审校 | 重楼人工智能正从执行预定义指令的工具，进化为具备自我修改、参数重写及实时反馈进化能力的复杂系统。这种被称为“自创生”的自维持特性，使其能动态适应环境以提升效率，但也带来不可预测性。对网络安全团队而言，传统安全模型基于“威胁来自外部”的假设——即恶意行为者利用稳定系统漏洞实施攻击。

5/7/2025 8:07:09 AM 晶颜

100个Python机器学习小技巧，让你速通ML

100个Python机器学习小技巧，让你速通ML

构建机器学习模型是数据科学的关键环节，涉及运用算法进行数据预测或挖掘数据中的模式。本文分享一系列简洁的代码片段，涵盖机器学习过程的各个阶段，从数据准备、模型选择，到模型评估和超参数调优。这些代码示例能帮助你使用诸如Scikit-Learn、XGBoost、CatBoost、LightGBM等库，完成常见的机器学习任务，还包含使用Hyperopt进行超参数优化、利用SHAP值进行模型解释等高级技术。

5/7/2025 7:17:18 AM 学研君

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉