AI在线 AI在线

模型

ComfyUI品牌焕新升级,推出原生API节点

ComfyUI于2025年5月6日宣布完成品牌升级,同步推出原生API节点功能。 这一更新不仅为ComfyUI带来了全新的视觉标识,还通过集成11个主流在线视觉AI模型、65个新节点,显著提升了其图像和视频生成能力。 据官方介绍,用户无需自行申请API密钥,仅需在ComfyUI平台登录即可无缝调用包括Flux.1、Veo2、GPT-Image-1等在内的先进模型。
5/7/2025 12:01:06 PM
AI在线

公开模型一切,优于DeepSeek-R1,英伟达开源Llama-Nemotron家族

在大模型飞速发展的今天,推理能力作为衡量模型智能的关键指标,更是各家 AI 企业竞相追逐的焦点。 但近年来,推理效率已成为模型部署和性能的关键限制因素。 基于此,英伟达推出了 Llama-Nemotron 系列模型(基于 Meta AI 的 Llama 模型构建)—— 一个面向高效推理的大模型开放家族,具备卓越的推理能力、推理效率,并采用对企业友好的开放许可方式。
5/7/2025 10:12:52 AM
机器之心

英伟达提出最强「描述一切」模型 (DAM),可生成图像或视频特定区域的详细描述,拿下7个基准SOTA!

英伟达提出「描述一切」模型 (DAM),这是一个强大的多模态大型语言模型,可以生成图像或视频中特定区域的详细描述。 用户可以使用点、框、涂鸦或蒙版来指定区域,DAM 将提供这些区域的丰富且符合上下文的描述。 相关链接论文::::详细的本地化图像和视频字幕详细本地化字幕 (DLC)详细局部字幕 (DLC) 的任务是生成图像中特定区域的全面且情境感知的描述。
5/7/2025 10:10:36 AM

南洋理工 & 牛津 & 新加坡理工提出Amodal3R,可从遮挡 2D 图像重建完整 3D 资产,3D生成也卷起来了!

Amodal3R 是一种条件式 3D 生成模型,能够从部分可见的 2D 物体图像中推测并重建完整的 3D 形态和外观,显著提升遮挡场景下的 3D 重建质量。 给定图像中 部分可见的物体,Amodal3R 重建具有合理几何形状和合理外观的语义上有意义的 3D 资产。 相关链接论文:::即将开放...模型:: 的示例结果。
5/7/2025 10:09:49 AM
AIGC Studio

掷30亿美元,OpenAI史上最大收购案!

OpenAI史上最大一笔收购即将敲定。 彭博爆料称,OpenAI将豪掷30亿美元,吞并了爆火编码神器Windsurf(前身为Codeium)。 此前,早有外媒曝出了这笔交易,目前离最终达成接近尾声。
5/7/2025 10:09:28 AM
新智元

刚刚,Gemini 2.5 Pro升级,成编程模型新王

你的默认编程模型是什么? 或许可以换一换了。 刚刚,Google DeepMind 发布了 Gemini 2.5 Pro 的最新更新版本:Gemini 2.5 Pro (I/O edition)。
5/7/2025 10:01:35 AM

OpenAI发布新一代GPT-4.1模型,和智谱Z.ai撞期

在人工智能领域,OpenAI 于今日正式推出其最新的 GPT-4.1模型,随之而来还有两个小型版本:GPT-4.1mini 和 GPT-4.1nano。 这一系列新模型的性能相较于前一代 GPT-4o 和 GPT-4o mini 有了显著提升,尤其在编码能力和指令跟踪方面表现突出。 此外,GPT-4.1还具备高达100万个上下文 tokens 的支持能力,极大扩展了处理信息的范围。
5/7/2025 10:01:30 AM
AI在线

思科与 Meta 携手推出网络安全新武器:Foundation-sec-8B 大模型

思科(Cisco)与 Meta 的合作为我们带来了一个令人振奋的新进展。 他们共同发布了名为 Foundation-sec-8B 的开源大型语言模型(LLM),该模型专门针对网络安全领域,具有80亿个参数。 这一创新产品不仅展现了两大科技巨头的强强联手,也预示着网络安全技术的新纪元。
5/7/2025 10:01:04 AM
AI在线

​机器人公司Dyna Robotics发布新型AI模型DYNA-1,助力机器人手臂实现更复杂任务

Dyna Robotics 是一家专注于人工智能的机器人初创公司,近期宣布将推出一款名为 Dynamism v1(DYNA-1)的全新 AI 模型。 该模型被誉为 “重大突破”,将使机器人手臂在无需人类干预的情况下,能够执行更高精度的任务,并且持续的工作时间更长。 为了验证 DYNA-1的有效性,Dyna Robotics 让机器人进行折叠餐巾的测试。
5/7/2025 10:01:04 AM
AI在线

上线仅7天,阿里通义千问3问鼎全球开源模型

近日,阿里巴巴推出的开源大模型 “通义千问3”(Qwen3)在上线仅七天后,便成功夺得了全球开源模型的冠军地位。 这一成果是在国际权威大模型评测榜 LiveBench 最新发布的排名中取得的,标志着阿里在人工智能领域又一次取得了重要突破。 据悉,通义千问3在指令遵循能力方面,表现超越了诸多顶级闭源模型,如 o3High、o4-Mini High 和 Gemini2.5pro,成功跻身全球第一的位置。
5/7/2025 10:01:04 AM
AI在线

英伟达新开源模型 Llama-Nemotron 震撼发布,推理性能超越 DeepSeek-R1

近日,英伟达正式推出了其最新开源模型系列 ——Llama-Nemotron,该系列模型不仅在推能力上超越了 DeepSeek-R1,更是在内存效率和吞吐量上实现了显著提升。 根据最新发布的技术报告,Llama-Nemotron 的训练过程与众不同,采用了合成数据监督微调与强化学习的方法,以全方位提升模型的推理能力。 Llama-Nemotron 系列模型包括 LN-Nano8B、LN-Super49B 和 LN-Ultra253B。
5/7/2025 10:01:04 AM
AI在线

AI再破2000年前「上古卷轴」!古希腊著作原文首次重见天日

AI再建一功! 火山灰掩埋的古代智慧,正在被AI一点点复活。 2025年5月6日,维苏威挑战赛(Vesuvius Challenge)迎来历史性突破——研究人员首次非侵入性地读取了仍然卷着的编号为PHerc.
5/7/2025 9:14:00 AM

ICML 2025 | 注意力机制中的极大值:破解大语言模型上下文理解的关键

大型语言模型(LLMs)在上下文知识理解方面取得了令人瞩目的成功。 近日,一项来自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》揭示了大型语言模型中一个重要现象:在注意力机制的查询 (Q) 和键 (K) 表示中存在非常集中的极大值,而在值 (V) 表示中却没有这种模式。 这一现象在使用旋转位置编码 (RoPE) 的现代 Transformer 模型中普遍存在,对我们理解 LLM 内部工作机制具有重要意义。
5/7/2025 9:12:00 AM

GPT-4o图像生成的「核燃料」找到了!万字长文拆解潜在变量,网友:原来AI在另一个维度作画

上个月, GPT-4o 的图像生成功能爆火,掀起了以吉卜力风为代表的广泛讨论,生成式 AI 的热潮再次席卷网络。 而在这股浪潮背后,潜在空间(Latent Space)作为生成模型的核心驱动力,点燃了图像与视频创作的无限想象。 知名研究者 Andrej Karpathy 最近转发了一篇来自 Google DeepMind 研究科学家 Sander Dielman 的博客文章,探讨了生成模型(如图像、音频和视频生成模型)如何通过利用潜在空间来提高生成效率和质量。
5/7/2025 9:06:00 AM

360开源升级自研7B参数模型360Zhinao3-7B 各项能力全面提升

360集团宣布开源升级了自研的7B参数模型360Zhinao3-7B,并已上线Github开源社区,可供免费商用。 这一模型不仅在数学和科学领域表现出色,更在通用能力上展现了强大的潜力,尤其在端侧应用上具有显著优势。 在本次升级中,360Zhinao3-7B模型仅通过增量训练700B的高质量token,就取得了显著的效果提升,这相比前代模型360Zhinao2-7B的10.1T token成本大幅降低,且不会增加模型的推理成本。
5/7/2025 9:00:53 AM
AI在线

H-MBA层次化MamBa模型如何突破自动驾驶视频理解瓶颈?这三大创新亮点揭示答案!

一眼概览:H-MBA (Hierarchical MamBa Adaptation) 提出了一个创新的多模态视频理解框架,通过结合高低时域分辨率,显著提升了自动驾驶场景中的视频理解和风险物体检测性能。 核心问题:现有的多模态大语言模型(MLLMs)在处理自动驾驶中复杂的时空动态视频时,性能有限。 特别是在捕捉背景变化、车辆和行人运动等方面,现有方法难以做到准确的时空理解。
5/7/2025 8:49:17 AM
萍哥学AI

实时口语聊天大模型 LLaMA-Omni 2 来了,能让你的 AI 聊天体验起飞!

最近 AI 圈可是热闹非凡,今天咱们就来聊聊其中的 “狠角色”——LLaMA-Omni2。 这是一系列超厉害的语音语言模型(SpeechLMs),参数规模从0.5B 到14B 不等,专门为实现高质量实时语音交互而生,在 Hugging Face 上一经发布,就引起了广泛关注。 语音交互发展历程回顾:从 “卡顿” 到 “丝滑”语音交互在人机交互领域的地位愈发重要,它就像是为我们打开了一扇便捷的大门,极大地提升了交互效率和用户体验。
5/6/2025 6:00:52 PM
AI在线

阿里通义Qwen3语言模型上线 ,开源实力再升级!

在全球人工智能领域,Qwen 系列大型语言模型迎来了新成员 ——Qwen3的发布。 今日,通义宣布将 Qwen3开源,带来了令人振奋的技术革新。 此次发布的旗舰模型 Qwen3-235B-A22B 以其2350亿个参数的规模在多个基准测试中展现出强大的竞争力,超越了 DeepSeek-R1、o1、o3-mini、Grok-3及 Gemini-2.5-Pro 等顶级模型。
5/6/2025 6:00:51 PM
AI在线