模型

搞不懂CUDA的人有救了，Devin开发商开源Kevin，强化学习生成CUDA内核

本周三，知名 AI 创业公司，曾发布「全球首个 AI 软件工程师」的 Cognition AI 开源了一款使用强化学习，用于编写 CUDA 内核的大模型 Kevin-32B。 Kevin-32B 基于 QwQ-32B 在 KernelBench 数据集上使用 GRPO 进行了多轮强化学习训练，实现了超越 o3 和 o4-mini 的顶级推理表现。对此，机器学习社区表现出了极大的兴趣。

5/7/2025 1:46:34 PM

ComfyUI品牌焕新升级，推出原生API节点

ComfyUI于2025年5月6日宣布完成品牌升级，同步推出原生API节点功能。这一更新不仅为ComfyUI带来了全新的视觉标识，还通过集成11个主流在线视觉AI模型、65个新节点，显著提升了其图像和视频生成能力。据官方介绍，用户无需自行申请API密钥，仅需在ComfyUI平台登录即可无缝调用包括Flux.1、Veo2、GPT-Image-1等在内的先进模型。

5/7/2025 12:01:06 PM AI在线

公开模型一切，优于DeepSeek-R1，英伟达开源Llama-Nemotron家族

在大模型飞速发展的今天，推理能力作为衡量模型智能的关键指标，更是各家 AI 企业竞相追逐的焦点。但近年来，推理效率已成为模型部署和性能的关键限制因素。基于此，英伟达推出了 Llama-Nemotron 系列模型（基于 Meta AI 的 Llama 模型构建）—— 一个面向高效推理的大模型开放家族，具备卓越的推理能力、推理效率，并采用对企业友好的开放许可方式。

5/7/2025 10:12:52 AM 机器之心

英伟达提出最强「描述一切」模型 (DAM)，可生成图像或视频特定区域的详细描述，拿下7个基准SOTA！

英伟达提出「描述一切」模型 (DAM)，这是一个强大的多模态大型语言模型，可以生成图像或视频中特定区域的详细描述。用户可以使用点、框、涂鸦或蒙版来指定区域，DAM 将提供这些区域的丰富且符合上下文的描述。相关链接论文：：：：详细的本地化图像和视频字幕详细本地化字幕 (DLC)详细局部字幕 (DLC) 的任务是生成图像中特定区域的全面且情境感知的描述。

5/7/2025 10:10:36 AM

南洋理工 & 牛津 & 新加坡理工提出Amodal3R，可从遮挡 2D 图像重建完整 3D 资产，3D生成也卷起来了！

Amodal3R 是一种条件式 3D 生成模型，能够从部分可见的 2D 物体图像中推测并重建完整的 3D 形态和外观，显著提升遮挡场景下的 3D 重建质量。给定图像中部分可见的物体，Amodal3R 重建具有合理几何形状和合理外观的语义上有意义的 3D 资产。相关链接论文：：：即将开放...模型：：的示例结果。

5/7/2025 10:09:49 AM AIGC Studio

掷30亿美元，OpenAI史上最大收购案！

OpenAI史上最大一笔收购即将敲定。彭博爆料称，OpenAI将豪掷30亿美元，吞并了爆火编码神器Windsurf（前身为Codeium）。此前，早有外媒曝出了这笔交易，目前离最终达成接近尾声。

5/7/2025 10:09:28 AM 新智元

刚刚，Gemini 2.5 Pro升级，成编程模型新王

你的默认编程模型是什么？或许可以换一换了。刚刚，Google DeepMind 发布了 Gemini 2.5 Pro 的最新更新版本：Gemini 2.5 Pro (I/O edition)。

5/7/2025 10:01:35 AM

OpenAI发布新一代GPT-4.1模型，和智谱Z.ai撞期

在人工智能领域，OpenAI 于今日正式推出其最新的 GPT-4.1模型，随之而来还有两个小型版本:GPT-4.1mini 和 GPT-4.1nano。这一系列新模型的性能相较于前一代 GPT-4o 和 GPT-4o mini 有了显著提升，尤其在编码能力和指令跟踪方面表现突出。此外，GPT-4.1还具备高达100万个上下文 tokens 的支持能力，极大扩展了处理信息的范围。

5/7/2025 10:01:30 AM AI在线

思科与 Meta 携手推出网络安全新武器：Foundation-sec-8B 大模型

思科（Cisco）与 Meta 的合作为我们带来了一个令人振奋的新进展。他们共同发布了名为 Foundation-sec-8B 的开源大型语言模型(LLM)，该模型专门针对网络安全领域，具有80亿个参数。这一创新产品不仅展现了两大科技巨头的强强联手，也预示着网络安全技术的新纪元。

5/7/2025 10:01:04 AM AI在线

机器人公司Dyna Robotics发布新型AI模型DYNA-1，助力机器人手臂实现更复杂任务

Dyna Robotics 是一家专注于人工智能的机器人初创公司，近期宣布将推出一款名为 Dynamism v1（DYNA-1）的全新 AI 模型。该模型被誉为 “重大突破”，将使机器人手臂在无需人类干预的情况下，能够执行更高精度的任务，并且持续的工作时间更长。为了验证 DYNA-1的有效性，Dyna Robotics 让机器人进行折叠餐巾的测试。

5/7/2025 10:01:04 AM AI在线

上线仅7天，阿里通义千问3问鼎全球开源模型

近日，阿里巴巴推出的开源大模型 “通义千问3”（Qwen3）在上线仅七天后，便成功夺得了全球开源模型的冠军地位。这一成果是在国际权威大模型评测榜 LiveBench 最新发布的排名中取得的，标志着阿里在人工智能领域又一次取得了重要突破。据悉，通义千问3在指令遵循能力方面，表现超越了诸多顶级闭源模型，如 o3High、o4-Mini High 和 Gemini2.5pro，成功跻身全球第一的位置。

5/7/2025 10:01:04 AM AI在线

英伟达新开源模型 Llama-Nemotron 震撼发布，推理性能超越 DeepSeek-R1

5/7/2025 10:01:04 AM AI在线

AI再破2000年前「上古卷轴」！古希腊著作原文首次重见天日

AI再建一功！火山灰掩埋的古代智慧，正在被AI一点点复活。 2025年5月6日，维苏威挑战赛（Vesuvius Challenge）迎来历史性突破——研究人员首次非侵入性地读取了仍然卷着的编号为PHerc.

5/7/2025 9:14:00 AM

ICML 2025 | 注意力机制中的极大值：破解大语言模型上下文理解的关键

大型语言模型（LLMs）在上下文知识理解方面取得了令人瞩目的成功。近日，一项来自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》揭示了大型语言模型中一个重要现象：在注意力机制的查询 (Q) 和键 (K) 表示中存在非常集中的极大值，而在值 (V) 表示中却没有这种模式。这一现象在使用旋转位置编码 (RoPE) 的现代 Transformer 模型中普遍存在，对我们理解 LLM 内部工作机制具有重要意义。

5/7/2025 9:12:00 AM

GPT-4o图像生成的「核燃料」找到了！万字长文拆解潜在变量，网友：原来AI在另一个维度作画

上个月， GPT-4o 的图像生成功能爆火，掀起了以吉卜力风为代表的广泛讨论，生成式 AI 的热潮再次席卷网络。而在这股浪潮背后，潜在空间（Latent Space）作为生成模型的核心驱动力，点燃了图像与视频创作的无限想象。知名研究者 Andrej Karpathy 最近转发了一篇来自 Google DeepMind 研究科学家 Sander Dielman 的博客文章，探讨了生成模型（如图像、音频和视频生成模型）如何通过利用潜在空间来提高生成效率和质量。

5/7/2025 9:06:00 AM

360开源升级自研7B参数模型360Zhinao3-7B 各项能力全面提升

360集团宣布开源升级了自研的7B参数模型360Zhinao3-7B，并已上线Github开源社区，可供免费商用。这一模型不仅在数学和科学领域表现出色，更在通用能力上展现了强大的潜力，尤其在端侧应用上具有显著优势。在本次升级中，360Zhinao3-7B模型仅通过增量训练700B的高质量token，就取得了显著的效果提升，这相比前代模型360Zhinao2-7B的10.1T token成本大幅降低，且不会增加模型的推理成本。

5/7/2025 9:00:53 AM AI在线

H-MBA层次化MamBa模型如何突破自动驾驶视频理解瓶颈？这三大创新亮点揭示答案！

一眼概览：H-MBA (Hierarchical MamBa Adaptation) 提出了一个创新的多模态视频理解框架，通过结合高低时域分辨率，显著提升了自动驾驶场景中的视频理解和风险物体检测性能。核心问题：现有的多模态大语言模型（MLLMs）在处理自动驾驶中复杂的时空动态视频时，性能有限。特别是在捕捉背景变化、车辆和行人运动等方面，现有方法难以做到准确的时空理解。

5/7/2025 8:49:17 AM 萍哥学AI

实时口语聊天大模型 LLaMA-Omni 2 来了，能让你的 AI 聊天体验起飞！

最近 AI 圈可是热闹非凡，今天咱们就来聊聊其中的 “狠角色”——LLaMA-Omni2。这是一系列超厉害的语音语言模型（SpeechLMs），参数规模从0.5B 到14B 不等，专门为实现高质量实时语音交互而生，在 Hugging Face 上一经发布，就引起了广泛关注。语音交互发展历程回顾:从 “卡顿” 到 “丝滑”语音交互在人机交互领域的地位愈发重要，它就像是为我们打开了一扇便捷的大门，极大地提升了交互效率和用户体验。

5/6/2025 6:00:52 PM AI在线

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

模型

搞不懂CUDA的人有救了，Devin开发商开源Kevin，强化学习生成CUDA内核

ComfyUI品牌焕新升级，推出原生API节点

公开模型一切，优于DeepSeek-R1，英伟达开源Llama-Nemotron家族

英伟达提出最强「描述一切」模型 (DAM)，可生成图像或视频特定区域的详细描述，拿下7个基准SOTA！

南洋理工 & 牛津 & 新加坡理工提出Amodal3R，可从遮挡 2D 图像重建完整 3D 资产，3D生成也卷起来了！

掷30亿美元，OpenAI史上最大收购案！

刚刚，Gemini 2.5 Pro升级，成编程模型新王

OpenAI发布新一代GPT-4.1模型，和智谱Z.ai撞期

思科与 Meta 携手推出网络安全新武器：Foundation-sec-8B 大模型

​机器人公司Dyna Robotics发布新型AI模型DYNA-1，助力机器人手臂实现更复杂任务

上线仅7天，阿里通义千问3问鼎全球开源模型

英伟达新开源模型 Llama-Nemotron 震撼发布，推理性能超越 DeepSeek-R1

AI再破2000年前「上古卷轴」！古希腊著作原文首次重见天日

ICML 2025 | 注意力机制中的极大值：破解大语言模型上下文理解的关键

GPT-4o图像生成的「核燃料」找到了！万字长文拆解潜在变量，网友：原来AI在另一个维度作画

360开源升级自研7B参数模型360Zhinao3-7B 各项能力全面提升

H-MBA层次化MamBa模型如何突破自动驾驶视频理解瓶颈？这三大创新亮点揭示答案！

实时口语聊天大模型 LLaMA-Omni 2 来了，能让你的 AI 聊天体验起飞！

机器人公司Dyna Robotics发布新型AI模型DYNA-1，助力机器人手臂实现更复杂任务